1.数据质量的评价指标
准确性丶完整性丶简洁性丶 适用性
2 .数据质量的问题分类
1)基于数据源的“脏”数据分类
①单数据源问题 ②多数据源问题
2)基于清洗方式的“脏”数据分类
①独立型”脏“数据
②依赖型”脏“数据
缺失数据 重复数据
3.数据清洗原理和定义
数据清洗技术是提高数据质量的有效方法。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。数据清洗的目的是把“脏”数据洗干净 而不是洗掉“脏”数据
4.数据清洗基本流程
5.数据清洗的策略
1)一般的数据清洗策略
①手工清洗
②自动清洗
③特定应用领域的清洗策略
④与特定应用领域无关的清洗策略
2)混合的数据清洗策略
6.常见的数据清洗方法
1)缺失值清洗
2)重复值的清洗
3)错误值的清洗