什么是数据分析

什么是数据分析?


数据分析检查、清理、转换和建模数据,以提取见解并支持决策。作为数据分析师,您的角色包括剖析大量数据集、挖掘隐藏的模式以及将数字转换为可操作的信息。

数据分析流程是怎样的?


数据分析过程是一个结构化的步骤序列,从原始数据到可操作的见解。以下是什么是数据分析的答案:

原始数据收集(raw data collection):从各种来源收集相关数据,确保数据质量和完整性。
数据清理(data cleansing):识别并纠正数据集中的错误、缺失值和不一致。干净的数据对于准确分析至关重要。
探索性数据分析 (EDA):进行初步分析以了解数据的特征、分布和关系。这里经常使用可视化技术。

数据转换:如有必要,通过对分类变量进行编码、缩放特征和处理异常值来准备数据以进行分析。
模型构建:根据目标,应用适当的数据分析方法,例如回归、聚类或深度学习。
模型评估:根据问题类型,使用平均绝对误差、均方根误差等指标评估模型的性能。
解释和可视化:将模型的结果转化为可操作的见解。可视化、表格和摘要统计数据有助于有效地传达调查结果。
现场部署:实施对实际解决方案或策略的见解,确保实施数据驱动的建议。

原始数据收集\rightarrow 数据清理\rightarrow 探索性数据分析 (EDA)\rightarrow数据转换\rightarrow 模型构建\rightarrow 模型评估\rightarrow 解释和可视化\rightarrow 现场部署


接下来将一步一步用代码和图文解释各个流程

原始数据收集(raw data collection)

原始数据(raw data)定义

原始数据,也称为主数据、源数据或原子数据,是直接从源收集和记录的未处理数据,无需任何操作、组织或分析。它可以采用多种形式,包括文本、数字、图像、音频或任何其他数据类型。

文本:这可能是来自书籍、文档、电子邮件等的原始数据。它是非结构化的,需要处理以提取有意义的信息。
数字:数字原始数据可以来自各种来源,如调查、实验等。它可以是定量的或定性的。
图像:图像可以是机器学习、计算机视觉等领域使用的原始数据。它们需要处理以提取特征。
音频:音频数据用于语音识别、音乐信息检索等领域。它是一种需要处理以提取相关信息的原始数据。

简易样例代码的展示

raw_data <- GET(API_URL)

在编译器下原始数据长什么样子

(这只是其中一个小例子)

数据清理(data cleansing)

数据清洗的定义

数据清理涉及发现和解决潜在的数据不一致或错误,以提高数据质量。误差是指任何值(例如,记录的重量)不能反映所测量物体的真实值(例如,实际重量)。

在此过程中,您可以查看、分析、检测、修改或删除“脏”数据,以使您的数据集“干净”。数据清理也称为数据清理或数据清理。

常用R方法清洗数据样本

方法 1:删除具有缺失值的行
library(dplyr)

#remove rows with any missing values
df %>% na.omit()
方法 2:将缺失值替换为其他值
library(dplyr)
library(tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is.numeric), ~replace_na(., median(., na.rm=TRUE))))
方法 3:删除重复的行
library(dplyr)

df %>% distinct(.keep_all=TRUE)

其余常用方式不在本文中列举

探索性数据分析 (EDA)(exploratory data analysis)

探索性数据分析(EDA)定义

探索性数据分析 (EDA) 是数据科学项目中至关重要的初始步骤。它涉及分析和可视化数据以了解其关键特征、发现模式和识别变量之间的关系,是指研究和探索记录集以理解其主要特征、发现模式、定位异常值和识别变量之间关系的方法。EDA 通常作为进行额外正式统计分析或建模之前的初步步骤进行。

探索性数据分析(EDA)图解

  • 14
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陆luiscoder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值