数据探索有助于选择合适的数据预处理方法和建模方法,数据探索可以从数据质量分析和数据特征分析两个角度进行探索。
数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据有一般有以下内容:
- 缺失值
- 异常值
- 不一致的值
- 重复数据以及含有特殊符号的数据
缺失值分析
使用统计分析对含有缺失值的属性计算缺失数和缺失率。
异常值分析
- 利用简单统计量
比如通过判断某个变量的最大值与最小值是否超过某个范围来判断它是否存在异常数据。 - 3σ原则
如果数据服从正态分布,异常值被定义为与均值的偏差超过3倍的标准差的值。 - 箱型图
QU代表3/4分位数,也叫上分位数
QL代表1/4分位数,也叫下分位数
IQR=QU-QL代表上分位数与下分位数之间的距离
异常值被定义为小于QL-1.5IQR或者大于QU+1.5IQR的值
一致性分析
查看同一数据在不同地方是否保持一致
数据特征分析
分布分析
- 同种类型数据的分布分析
步骤:
1)求极差
2)决定组数和组距
3)决定分点
4)列出频率分布表
5)绘制频率分布图
实例:
数据为4-6月某饭店的销售额,现在想分析这三个月内饭店的销售额集中在哪一块儿?