一、数据质量分析
检查原始数据中是否存在脏数据
脏数据包括:
缺失值、异常值、重复值、不一致的值、含有特殊符号的数据
1.1 缺失值分析
从以下方面进行分析:
(1)缺失值产生的原因
数据无法获取
数据被遗漏
属性值本身不存在
(2)缺失值的影响
数据掘建模丢失大量信息
数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握
缺失值数据会使建模过程陷入混乱,导致不可靠的输出
(3)缺失值的统计分析
对含有缺失值的属性统计个数以及缺失数和缺失率等
1.2 异常值分析
异常值是指样本中个别值,数值偏离其他观测值,即离群点
(1)描述性统计分析
对变量进行描述性统计,查看哪些数据不合理
(2)3原则
如果数据符合正态分布,在3原则下,异常值被定为为一组测定值中与平均值偏差超过3倍 标准差的值,在正态分布下,距离平均值3
之外的值出现的概率属于小概率事假。如果数据 不符合正态分布,也可以用原理平均值多少倍标准差来描述
(3)箱型图分析
:下四分位数
u:上四分位数
:四分位数间距(
u-
)
异常值被定义为小于-1.5
或者大于
u+1.5
二、数据特征分析
2.1 分布分析
2.1.1 定量数据分布分析
频率分布直方图
2.1.2 定性数据分布分析
饼图、条形图
2.2 对比分析
2.3 统计量分析
对定量数据进行统计描述
2.3.1 集中趋势度量
均值:对极端值很敏感,数据如果存在极端值或者偏态分布,采用截断均值或者使用中位数度量集中趋势
中位数
众数
2.3.2 离中趋势度量
极差:对数据集极端值非常敏感
标准差:数据偏离均值的程度
变异系数:度量标准差相对于均值的离中趋势,用来比较多个不同单位数据集的离中趋势
四分位数间距:数据变异程度
2.4 周期性分析
探索某个变量是否随着时间变化而呈现出某种周期变化趋势
周期性趋势:年度周期性趋势、季节性周期趋势、月度周期性趋势、周度周期性趋势等
2.5 贡献度分析
20/80定律
2.6 相关性分析
相关性分析:连续变量之间的线性相关程度的强弱
2.6.1 直接绘制散点图
两个变量之间的散点图
2.6.2 绘制散点图矩阵
同时考虑多个变量之间的相关关系
2.6.3 相关系数
相关系数:更加准确描述变量之间相关性程度
二元变量相关系数:Pearson相关系数、Spearman秩相关系数、判定系数(R方)