数据质量分析:
脏数据检查
脏数据:
缺失值
异常值
不一致的值
重复数据及含有特殊符号(#,&,¥)的数据
缺失值分析:
1、缺失值产生的原因
1)有些信息暂时无法获取,或者获取信息的代价太大
2)某些信息被遗漏:有些信息被人为因素或设备故障而被遗漏
3)属性值不存在:对某些对象来说某些属性值是不存在的
2、缺失值的影响
1)数据挖掘建模将会丢失大量的有用信息
2)数据模型所表现出的不确定性更加显著,模型中的规律更难把握
3)包含空值的数据会使建模过程陷入混乱,导致不可靠的输出。
异常值分析
检验数据是否有录入错误以及是否含有不合常理的数据。
异常值通常是指样本中的个别值,其数值明显偏离其余的观测值,异常值也叫离群点,异常值分析也叫作离群点分析。
1)简单统计量分析
可以先对数据做一个描述性统计,然后查看哪些数据是不合理的。
最常用的统计量是最大值和最小值,可用来判断某一变量的取值是否超出了合理的范围。
2)3原则
若数据服从正态分布,在3原则下,异常值被定义为一组测定值中与平均值
的偏差超过3倍标准差
的值。
在正态分布的假设下,距离平均值3之外的值出现的概率为
,属于极个别的小概率事件。
若数据不服从正态分布,也可以用远离平均值得多少倍标准差来描述。
3)箱型图分析
箱型图的标准-->异常值通常被定义为:
或
其中,称为下四分位数,表示全部观察数据中有四份之一的数据取值比它小;
称为上四分位数,表示全部观察数据中有四份之一的数据取值比它大;
称为四分位数间距,是上四分位数
与下四分位数
之差,其间包含了全部观察值的一半。
箱型图依据实际数据绘制,没有对数据做任何限制性要求(如服从某种特定的分布形式),它只是真实地表现数据分布的本来面貌;箱型图判断异常值得标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不会对这个标准施加影响。
不一致性分析
数据的不一致性是指数据的矛盾性、不相容性。
不一致的数据主要发生在数据集成的过程中,这可能是由于被挖掘的数据是来至于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。