数值质量分析的必要性
数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。只有可信的数据才能保证数据挖掘的可靠。
数据质量分析的任务
数据质量分析的主要任务是检查原始数据中是否存在脏数据。
脏数据指不符合要求以及不能直接进行相应分析的数据。
脏数据包括: 缺失值; 异常值; 不一致的值; 重复数据以及含有特殊符号的(如#、¥、*)的数据。
1.缺失值分析
缺失值分析主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下列出缺失值产生原因和影响:
(1)缺失值产生原因
1.有些信息暂时无法获取,或者获取信息代价较大。
2.信息遗漏。由于人为忘记填写、人为不重要或者数据理解错误,亦或者由于数据采集设备的故障、存储介质的故障和传输每天的故障等非人为因素。
3.属性值不存在。某些情况下,缺失值并不意味着数据错误。对一些对象来说某些属性值是不存在的,如儿童收入。
(2)缺失值的影响
1.数据挖掘建模将丢失大量有用信息。
2.数据挖掘模型更加不确定,数据规律更难把握。
3.包含空值的数据会使建模过程陷入混乱,导致不可靠输出。
(3)缺失值分析方法
1.缺失值统计分析:可以得到含有缺失值的属性个数,以及每个属性的未缺失值个数。
2.处理缺失值可以: 删除存在缺失值的记录; 对可能值进行插值; 对缺失值不做处理(一般针对合理缺失值)。
2.异常值分析方法
异常值也称离群点,异常值分析也称离群点分析
(1)简单统计量分析
先对变量做一个描述性统计,进而查看哪些数据不合理。常用统计量是最大值和最小值,用来判断变量取值是否超出合理范围,例如满分100,学生成绩为200,则该值异常。
(2)3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中雨平均值偏差超多3倍标准差的值。距离平均值3σ之外的值出现的概率为
属于极个别小概率事件。如果不服从正态分布,可以用远离平均值的标准差倍数描述。
(3)箱型图分析
1.箱型图提供了一个识别异常值的标准:
异常值通常被定义为小于或者大于 的值。被称为下四分位,表示全部数据中有四分之一的数值比它小;被称为上四分位,表示全部数据中有四分之一的数值比它大; 称为四分位数间距,是上四分位和下四分位之差,其间包含全部观测值的一半。
2.箱型图依据实际数据回执,没有对数据做任何限制, 是数据分布的直观展示;
3.箱型图判断异常的标准是以四分位和四分位距离为基础, 四分位数具有一定的鲁棒性:多达25%的数据可以变得 任意远而不会很大地扰动四分位数,所以异常值不对这 个标准施加影响。
4.箱型图识别异常值结果比较客观,具有一定优越性。
箱型图检测异常值示意图
3.一致性分析
(1) 一致性问题的来源
在数据挖掘中,不一致的数据主要产生在数据集成过程中,可能由于被挖掘的数据来自于不同的数据源,或者数据重复存放而未进行一致性更新。例如,在两张表中存放同一个人的电话号码,但是当他号码更换后只更新了其中一个表中的数据,则两张表中同一个人的电话号码就出现了不一致。
(2)不一致数据的处理
根据具体情况进行数据合并,或删除旧数据,或进行数据融合(新旧数据不全)