1. 数据清洗的背景
当今时代,企业信息化要求越来越迫切,对于企业的决策者来说,正所谓垃圾进垃圾出——如果作为决策支持的数据和仓库存放的数据质量达不到要求,将直接导致数据分析和数据挖掘不能产生理想的效果
1.1 数据质量概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度,在不同场景下,数据消费者对数据质量有各自不同的观点,具体:
1.对于一个邮件列表管理员来说,数据质量和姓名地址有关,高质量的数据意味着清晰、准确、不存在二义性以及不重复的邮件传送地址。
2.对于数据清洗工具销售商来说,数据质量与姓名、地址有关,以及与他们的工具是否能够规范地校验和匹配客户记录有关。
3.对于数据仓库工程师来说,数据质量是将他们接收的应用数据经过相关的处理,村存储在表格中或者显示窗口中。
4.对于一个数据挖掘和决策支持系统的使用者来说,数据质量意味着准确,无重复且符合许多特定要求的数据。
数据质量的显著特点:
1.“业务需求”会随时间变化,数据质量也会随时间变化。
2.数据质量可以借助信息系统度量,但独立于信息系统存在。
3.数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.2 数据质量的评价指标
1.准确性
数据的准确性就是要求数据的噪声尽可能小,为提高数据的准确性,需要对数据进行降噪处理。
2.完整性
完整性是指数据信息是否存在缺失的状况。
3.简洁性
简洁性就是要尽快选择重要的本质属性,并消除冗杂。
4.适用性
适用性是评价数据质量的重要标准。
1.3数据质量的问题分类
1.基于数据源的“脏数据”分类
通常情况下,将数据源中不完整、重复以及错误等问题的数据称为脏数据,由于数据库来自于底层数据源,因此脏数据的出现的原因与数据源有密切联系。(1)单数据源问题
单数据源的数据质量主要取决于她的模式对数据完整性约束的控制程度。由于数据模式和完整性约束了数据的范围。如果单数据源没有数据模式,就会对进入和存储的数据缺乏相应的限制,此时很可能出现拼写错误的数据和不一致的数据。
(2)多数据源问题
单数据源情况下出现的在多数据源情况下更加严重,每个数据源都有可能包含脏数据,而且每个数据源中的数据表示方法都各自不同,还有可能出现数据重复货矛盾冲突。
2.基于清洗方式的“脏”数据分类
(1)独立型“脏”数据
独立性“脏”数据可通过记录或本身属性校验出是否包含“脏”数据,不需要依赖其他数据或属性检测。
(2)依赖性型“脏”数据
缺失数据:缺失数据主要包括数据空值和数据异常,数据空值一般有两种情况其中缺失值是指值实际存在,但是没有存入值所在字段中。数据异常指的是用统计方法识别异常值。
重复数据:重复数据是指一个现实实体在数据集合中以不完全相同的记录表示。
1.3数据清洗的定义
数据清洗就是利用相关技术将“脏数据”转换为满足质量要求的数据。
1.4 数据清洗基本流程
基本分为五个步骤:数据分析,定义数据清洗的策略与规则、搜寻并确定错误示例,纠正发现的错误,干净数据回流。
1.5 数据清洗的策略
1.一般数据清洗的策略
(1)手工数据清洗策略,即通过人工直接修改脏数据
(2)自动清洗策略,即通过编写专门的应用程序检测并修改脏数据。
(3)特定应用领域的清洗策略,即根据概率统计学原理检测并修改数据异常的记录。
(4)与特定应用领域无关的数据清洗策略,即根据相关算法检测并删除重复数据。
2.混合的数据清洗策略
混合的数据清洗策略主要以自动清洗为主。
1.6 常见的数据清洗方法
1.缺失值清洗 2.重复值清洗 3.错误值清洗