数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据 仓库领域、数据挖掘领域以及数据质量管理领域。
一.数据质量的特点:
“业务需求”会随时间变化,数据质量也会随时间变化。
数据质量可以借助信息系统度量,但独立于信息系统存在。
数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。
二.数据质量问题的分类:
⑴基于数据源的的“脏”数据分类
①单数据源
模式层(数据库的结构,即关系结构)
实例层(关系中具体存储的数据记录或元组)
②多数据源
⑵基于清洗方式的“脏”数据分类
①独立型“脏”数据
②依赖型“脏”数据:主要包括缺失数据和重复数据。
三.数据清洗的策略
1.一般清洗策略
1)手工清洗策略,即人工修改
2)自动清洗策略,通过专门的程序进行修改
3)特定应用领域的清洗策略,根据概率统计学原理检测并修改数值异常记录
4)与特定应用领域无关的清洗策略,根据相关算法检测并删除重复记录
2.混合的数据清洗策略
以自动清洗为主。
四.常见的数据清洗方法:
缺失值的清洗
1、忽略缺失值数据。
2、填充缺失值数据。
重复值的清洗
基本思想:排组和合并。
方法:相似度计算、基于基本近邻排序算法。
错误值的清洗
方法:①使用统计分析的方法识别可能的错误值(偏差分析、识别分析等);②使用简单规则库(常识性规则、业务特定规则等)检测出错误值;③使用不同属性间的约束以及使用外部的数据检测和处理错误值。
五.数据清洗基本流程:
原始数据
↓
数据分析
↓
定义数据清洗的策略和规则
↓
搜寻并确定错误实例
↓
纠正发现的错误
↓
干净数据回流
↓
目标数据