现实生活中,我们接触到的数据是海量的,来源广泛的,类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据,如果直接使用,会严重的影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.数据质量的评价指标
数据清洗的目的是为了将脏数据洗掉,提高数据质量。而数据质量的评价指标包括四方面:
(1)准确性
指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据,一般就视为是噪声或异常值,可通过常用的异常值检测方法聚类进行处理。
(2)完整性
指数据信息中是否存在缺失的状况。数据缺失的情况可能是整条数据记录的缺失,也可能是数据中的某个字段信息的记录缺失。不完整的数据会使其本身的借鉴价值大大降低。
(3)简洁性
指要尽量选择重要的本质属性,并消除冗余。在数据挖掘时,特征属性的个数越多,数据越容易出现噪声。因此进行决策时,往往要抓住反映问题的主要因素,而不是把问题的细节都搞得很清楚。
(4)适用性
前三个归根结底都是为了数据的实际效用,因此适用性是评价数据质量的核心准则。
2.数据质量的问题分类
(1)基于数据源的‘脏’数据分类
模式层是指数据库的结构,就是关系结构ÿ