一.数据清洗的背景
当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。
1.数据质量概述
数据质量的特点如下:
1.1.“业务需求”会随时间变化,数据质量也会随时间变化。
1.2.数据质量可以借助信息系统度量,但独立于信息系统存在。
1.3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。
2.数据质量的评价指标
2.1.准确性
2.2.完整性
2.3.简洁性
2.4.适用性
3.数据质量问题的分类
3.1.基于数据源的“脏”数据
单数据源:数据质量主要取决与它的模式对数据完整性约束的控制程度
多数据源:多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
3.2.基于清洗方式的“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
二.数据清洗的原理
数据清洗的目的是解决”脏“数据问题,不是将”脏“数据洗掉,而是将”脏“数据洗干净。
三.数据清洗的基本流程
1.数据分析
2.定义数据清洗的策略和规则
3.搜寻并确定错误实例
4.纠正发现的错误
5.以及干净数据回流
四.数据清洗的策略
数据清洗的策略主要分为一般的数据清洗策略和混合的数据清洗策略。
1.一般的数据清洗策略:手工清洗策略、自动清洗策略、特定应用领域的清洗策略和特定应用领域无关的清洗策略。
2.混合的数据清洗策略:主要以自动清洗为主。
五.常见的数据清洗的方法。
1. 缺失值的清洗: 缺失值的清洗方式主要是忽略缺失值数据和填充缺失值数据。
2. 重复值的清洗:清洗重复值的基本思想是”排序和合并“。主要清洗方法是相似度计算和基于基本近邻排序算法等。
3. 错误值的清洗: 错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值、使用简单规则库检测错误值、使用不同属性间的约束以及使用外部的数据方法检测和处理错误值。