1. 数据清洗的背景
1.1 数据清洗的原因:
数据的来源是广泛的,数据的类型是多而繁杂的,所以数据中会夹杂着不完整、重复以及错误的数据,直接使用会影响数据决策的准确性和效率。所以,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.2 数据质量
1.2.1 概念:数据质量指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求程度。
1.2.2 特点:
(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。
(2)数据质量可以借助信息系统度量,但独立于信息系统存在。
(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.2.3 评价指标:
(1)准确性:数据的准确性就是要求数据中的噪声尽可能少
(2)完整性:完整性指的是数据信息是否存在缺失的状况
(3)简洁性:简洁性就是要尽量选择重要的本质属性,并消除冗余
(4)适用性:适用性是评价数据质量的重要标准。
1.2.4 数据质量的问题分类
(1)基于数据源的“脏”数据分类
1)单数据源问题:
单数据源的数据质量主要取决与它的模式对数据完整性约束的控制程度
2)多数据源问题
(2)基于清洗方式的“脏”数据分类
1)独立型“脏”数据:可通过记录或本身属性检验