数据探索之数据分析

1.1 数据质量分析

​ 数据质量分析的主要任务是检查原始数据中是否存在脏数据,常见的脏数据有:

  1. 缺失值

  2. 异常值

  3. 不一致的值

  4. 重复数据以及含有特殊符号的数据

1.1.1 缺失值分析

​ (1) 缺失值产生的原因

  1. 有些信息无法获取,或者获取信息的代价太大

  2. 信息遗漏

  3. 属性值不存在

​ (2) 缺失值的影响

  1. 数据挖掘建模将会丢失大量的有用信息

  2. 数据挖掘建模表现出的不确定性更加显著

  3. 包含空值的数据会使建模过程陷入混乱

​ (3) 缺失值的分析

使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等

1.1.2 异常值分析

​ 异常值分析是检验数据是否有录入错误以及含有不合理的数据,异常值的分析也成为离群点分析。

(1) 简单统计量分析

即统计量的范围是否合理

(2) 3σ原则

​ 如果数据服从正态分布,再3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,在正态分布的假设下,距离平均值3σ之外的值出现的概率为P<=0.003,属于极个别的小概率事件。

(3) 箱型图提供了识别异常值的一个标准:异常值通常被定义为小于Ql - 1.5 IQR 或大于Qu + 1.5 IQR 的值。其中Ql为下四分位数,Qu为上四分位数,IQR为四分位数间距,其间包含了全部观察值的一半。

1.1.3 一致性分析

​ 数据不一致性是指数据的矛盾性、不相容性。在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。(未进行同时更新)

1.2 数据特征分析

1.2.1 分布分析

​ 1.定量数据的分布分析

  1. 求极差

  2. 决定组距与组数

  3. 决定分点

  4. 列出频率分布表

  5. 绘制频率分布直方图

​ 2.定性数据的分布分析

通过饼图(扇形图)和条形图来描述定性变量的分布。

### 1.2.2 对比分析

### 1.2.3统计量分析

集中趋势:均值或者中位数

离中趋势:标准差(方差)、四分位间距

1.2.4周期性分析

1.2.5贡献度分析

1.2.6 相关性分析

​ 1.直接绘制散点图

​ 2.绘制散点图矩阵

​ 3.计算相关系数(pearson系数、Spearman系数)

1.3 主要数据探索函数

1. python主要用于数据探索的库主要是 pandasMatplotlib

  1. sum

  2. mean

  3. var 计算数据样本的方差

  4. std() 计算数据样本的标准差

  5. corr 计算数据样本的pearson 相关系数 D.corr(method=‘pearson’)

  6. cov 计算数据样本的协方差矩阵

  7. describe 直接给出样本数据的一些基本的统计量,如均值、中位数等

2. pandas 累积统计特征函数

  1. 累积计算(cum)

  2. 滚动计算(pd.rolling_) (按列计算)

3. 统计作图函数

(1) plot() :绘制线性二维图、折线图 格式为:plt.plot(x,y,S)

(2) pie() : 绘制饼形图 格式为: plt.pie(size)

(3) hist() : 绘制直方图 格式为: plt.hist(x,y)

(4) boxplot() : 绘制样本数据的箱型图 格式为: D.boxplot()

(5) plot(logy = True) 绘制y轴的对数图形 格式为 :D.plot(logy = True)

(6) plot(yerr = error) 绘制误差条形图 格式为:D.plot(yerr = error)

导入pandas相关作图函数库的方法为: import matplotlib.pyplot as plt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值