数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据清洗干净。
一 数据质量的评价指标
1.准确性
要求数据中的噪声尽可能小。为提高数据的准确性,需要对数据集进行降噪处理。
2.完整性
指数据信息是否存在缺失的情况。
3.简洁性
就是要尽量选择中药的本质属性,并消除冗余。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。
4.适用性
适用性是评价数据质量的重要指标。
二 数据质量的问题分类
1.基于数据源的“脏”数据分类
脏数据:通常情况下,将数据源中不完整,重复以及错误的数据称为“脏”数据。
基于数据源的“脏”数据质量问题可以分为单数据源问题和多数据源问题
1.1单数据源问题
单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。
单数据源的实例层问题是由于数据在模式层无法预防的错误和不一致引起的。典型的单数据源实例层问题包括缺失值,拼写错误(即在数据输入时容易出现),属性依赖冲突(即不满足属性间的依赖关系,如城市名与邮政编码不满足对应关系等)以及相似重复记录。
1.2多数据源问题
单数据源情况下出现的问题在多数据源情况下变的更加严重。
多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。的
名字冲突表现在同一个名字表示不同的对象,或不同的名字表示同一个对象;结构冲突的典型表现是不同的数据源中同一对象用不同的数据表示。
2.基于清洗方式的“脏”数据分类
从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立性”“脏”数据和““依赖性”“脏”数据”。
2.1 独立性“脏”数据