一.数据清洗概述
1.1.1数据清洗的背景
(1)数据质量的显著特点:
<1> “业务需求”会随着时间变化,数据质量也会随时间发生变化。
<2>数据质量可以借助信息系统度量,但独立于信息系统存在。
<3>数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
(2)数据质量的评价指标
<1>准确性
数据的准确性要求数据中的噪声尽可能少。
对于数据中偏离常规,分散的小样本数据,一般可视为噪声或异常数据,可通过
常用的异常值检测方法聚类进行处理。
<2>完整性
完整性指的是数据信息是否存在缺失的状况。是数据质量基础的评价标准。
<3>简洁性
简洁性就是尽量选择重要的本质属性,并消除冗余。
<4>适用性
适用性是评价数据质量的重要标准。
1.1.2 数据质量的问题分类
(1)基于数据源的“脏”数据分类
数据源中不完整,重复以及错误等有问题的数据称为“脏”数据。