数据清洗第一章笔记
1.1 数据清洗的背景
由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
一.数据质量
1.数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
2.数据质量的评价指标:准确性、完整性、简洁性、适用性(核心标准)。
3.数据质量问题的分类
⑴基于数据源的的“脏”数据分类
①单数据源
模式层(数据库的结构,即关系结构)
实例层(关系中具体存储的数据记录或元组)
②多数据源
⑵基于清洗方式的“脏”数据分类
①独立型“脏”数据
②依赖型“脏”数据:主要包括缺失数据和重复数据等。
二.数据清洗原理
利用相关技术将“脏”数据转换为满足质量要求的数据。
三.数据清洗基本流程
原始数据
↓
数据分析
↓
定义数据清洗的策略和规则
↓
搜寻并确定错误实例
↓
纠正发现的错误
↓
干净数据回流
↓
目标数据
四.数据清洗的策略
⒈一般的数据清洗策略
①手工清洗策略。
②自动清洗策略。
③特定应用领域的清洗策略。
④无特定应用领域无关的清洗策略。
⒉混合的数据清洗策略
主要以自动清洗为主(编写应用程序)。
五.常见数据清洗方法
⒈缺失值的清洗
①忽略缺失值数据。
②填充缺失值数据。
⒉重复值的清洗
基本思想:排组和合并。
方法:相似度计算、基于基本近邻排序算法。
⒊错误值的清洗
方法:①使用统计分析的方法识别可能的错误值(偏差分析、识别分析等);②使用简单规则库(常识性规则、业务特定规则等)检测出错误值;③使用不同属性间的约束以及使用外部的数据检测和处理错误值。