1.1数据清洗的背景
由于社会的需求我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。由此可见,数据质量在企业战略决策中占据着重要的地位。
1.1.1数据质量的概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景需求的程度。数据质量是一个相对的概念(与决策有关)。不同的决策者对数据的质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。
数据质量的显著特点如下。
“业务需求”会随时间变化,数据质量也会随时间发生变化。
数据质量可以借助信息系统度量,但独立于信息系统存在。
数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.1.2数据质量的评价指标
准确性
完整性
简洁性
适用性
1.1.3数据的质量问题而分类
数据质量的问题分为数据源的“脏”数据和清洗方式的“脏”数据
1.基于数据源的“脏”数据
单数据源:
数据质量主要取决与它的模式对数据完整性约束的控制程度
多数据源
多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
2.基于清洗方式的“脏”数据
独立型“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
依赖型“脏”数据
依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
(1)缺失数据包括空值(缺失值和空值)和数据异常
(2)重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。
1.2数据清洗的定义
数据清洗技术是提高数据质量的有效方法。在不同的领域有不同的方法,所以对于数据清洗没有一个公认统一的定义。但是我们只要明确数据清洗的目的以及目前主要应用的领域即可。
1.3数据清洗的原理
“脏”数据-------数据的清洗策略、规则---------满足数据质量要求的数据
我们数据清洗的主要目的就是解决“脏”数据问题。
1.4数据清洗的基本流程
原始数据
数据分析
定义数据清洗的策略和规则
搜寻并确定错误示例
纠正发现的错误
干净数据的回流
目标数据
1.5数据清洗的策略
1.一般的数据清洗策略
1.手工清洗策略
2.自动清洗策略
3.特定应用领域的清洗策略
4.特定应用领域无关的清晰策略
2.混合的数据清洗策略
混合的数据清洗策略主要以自动清洗为主。
1.6常见的数据清洗方法
- 缺失值的清洗
- 重复值的清洗
- 错误值的清洗