数据清洗概述

1.1数据清洗的背景

由于社会的需求我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。由此可见,数据质量在企业战略决策中占据着重要的地位。

1.1.1数据质量的概述

数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景需求的程度。数据质量是一个相对的概念(与决策有关)。不同的决策者对数据的质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。

数据质量的显著特点如下。 

“业务需求”会随时间变化,数据质量也会随时间发生变化。 
数据质量可以借助信息系统度量,但独立于信息系统存在。
数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。

1.1.2数据质量的评价指标

准确性

完整性

简洁性

适用性

1.1.3数据的质量问题而分类

数据质量的问题分为数据源的“脏”数据和清洗方式的“脏”数据

1.基于数据源的“脏”数据

单数据源:
数据质量主要取决与它的模式对数据完整性约束的控制程度
多数据源
多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
2.基于清洗方式的“脏”数据
独立型“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
依赖型“脏”数据
依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
(1)缺失数据包括空值(缺失值和空值)和数据异常
(2)重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。

1.2数据清洗的定义

数据清洗技术是提高数据质量的有效方法。在不同的领域有不同的方法,所以对于数据清洗没有一个公认统一的定义。但是我们只要明确数据清洗的目的以及目前主要应用的领域即可。

1.3数据清洗的原理

“脏”数据-------数据的清洗策略、规则---------满足数据质量要求的数据

我们数据清洗的主要目的就是解决“脏”数据问题。

1.4数据清洗的基本流程

  

 原始数据

数据分析       

定义数据清洗的策略和规则

搜寻并确定错误示例  

纠正发现的错误

干净数据的回流

目标数据

 1.5数据清洗的策略

1.一般的数据清洗策略

         1.手工清洗策略  

         2.自动清洗策略
        3.特定应用领域的清洗策略
        4.特定应用领域无关的清晰策略
2.混合的数据清洗策略
        混合的数据清洗策略主要以自动清洗为主。

1.6常见的数据清洗方法

  1. 缺失值的清洗
  2. 重复值的清洗
  3. 错误值的清洗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值