一、背景介绍
企业所拥有的数据仓库中的数据的来源是广泛的,数据类型也是多而繁杂的。因此数据经常不是我们想要的。数据可能存在一些不完整的情况或者有一些错误,重复的数据,那么我们需要对数据进行清洗来得到一个符合我们要求的数据集。
二、什么是数据清洗?
数据清洗是从一个充满拼写错误、缺失值、异常值等问题的原始数据集通过数据转换、缺失处理等手段映射为一个符合质量要求的“新”数据集的过程。
数据清洗的原理是利用相关技术将“脏”数据转化为满足质量要求的数据。
三、数据质量
1、定义:数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
2.特点:数据质量会随时间发生变化;数据质量可以借助信息系统度量,但独立于信息系统存在;数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
3.评价指标:
准确性 | 要求数据中的噪声尽可能小 |
完整性 | 数据信息是否存在缺失的情况 |
简洁性 | 尽量选择数据重要的本质属性 |
适用性 | 尽量获取符合要求的数据 |
4.问题分类