由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
目录
1.1 数据清洗的背景
1.1.1 数据质量概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。但是,在不同的业务场景中,数据消费者对数据量有各自不同的观点,具体如下:
● 对于一个邮件列表的管理员来说,数据质量与姓名、地址有关,高质量的数据意味着清晰、准确、不存在二义性以及不重复的邮件传送地址。
● 对于清洗工具销售商来说,数据质量与姓名、地址有关,以及与他们的工具是否能够规范地校验和匹配客户记录有关。
● 对于数据仓库工程师来说,数据质量是将他们接收的应用数据经过相关的处理,存储到表格中或者显示到窗口中。
● 对于一个数据挖掘和决策支持系统的使用者来说,数据质量意味着准、无重复且符合许多特定要求的数据。
从适应性的角度看,数据质量是一个相对的概念(与决策有关)。不同的决策者对数据质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。
数据质量的显著特点如下:
●“业务需求”会随时间变化,数据质量也会随时间发生变化。
●数据质量可以借助信息系统度量,但独立于信息系统存在。
●数据质量存在于数据的整个生命周期。随着数据的产生而产生,随着数据的消失而消失。
1.1.2数据质量的评价指标
数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性。其中数据的准确性、完整性和简洁是为了保证数据的适应性。
1、准确性
数据的准确性就是要求数据中的噪声尽可能少。为提高数据的准确性,需对数据进行降噪处理。对于数据中偏离常规、分散的小样本数据,一般可视为噪声或异常数据,可通过最常用的异常值测方法聚类进行处理。
2、完整性
完整性指的是数据信息是否存在缺失的状况。数据缺失的情况可能是整条数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低,也是数据质量更为基础的一项评估标准。
数据质量的完整性比较容易评估,一般通过数据统计中的记录值和唯一值进行评估。
3、简洁性
简洁性就是要尽量选择重要的本质属性,并消除冗余。进行决策时,决策者往往抓住反映问题的主要因素,而不需要把问题的细节都搞得很清楚。
4、适用性
适用性是评价数据质量的重要标准。建立数据仓库的目的是进行数据挖掘、支持决策分析。数据的质量是否能满足决策的需要是适用性的关键所在。尽管前面已经强调了数据的准确性、完整性和简洁性,但归根结底是为了数据的实际效用。从数据的实际效用上讲,适用性才是评价数据质量的核心准则。
1.1.3数据质量的问题分类
数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。
1、基于数据源的“脏”数据分类
通常情况下,将数据源中不完整、重复以及错误等有问题的数据称为“脏”数据。由于数据仓库的数据来自底层数据源,因此“脏”数据出现的原因与数据源有密切的关系。
从图1-1中可以看出,基于数据源的“脏”数据质量问题可以分为两类,即单数据源问题和多数据源问题。
1)单数据源问题
单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。由于数据模式和完整性约束控制了数据的范围,如果单数据源没有数据模式,就会对进入和存储的数据缺乏相应的限制,此时很有可能出现拼写错误的数据和