1.1数据清洗的背景
数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量是一个相对的概念(与决策有关)。
数据质量的特点:
1、“业务需求”会随时间变化,数据质量也会随时间变化。
2、数据质量可以借助信息系统度量,但独立于信息系统存在。
3、数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。
1.1.2数据质量的评价指标
1、准确性
2、完整性
3、简洁性
4、适用性
1.1.3数据质量的问题分类
1、基于数据源的“脏”数据
单数据源:
模式层:数据质量主要取决与它的模式对数据完整性约束的控制程度。
实例层:数据在模式层无法预防的错误和不一致引起的。
多数据源
模式层:多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
实例层:单数据源的相同的值不同表示重复记录。
2.基于清洗方式的“脏”数据
独立型“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
数据的合法性检验: