第一章 数据清洗概述

数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据 仓库领域、数据挖掘领域以及数据质量管理领域。

一.数据质量的特点:
“业务需求”会随时间变化,数据质量也会随时间变化。

数据质量可以借助信息系统度量,但独立于信息系统存在。        

数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。

二.数据质量问题的分类:
⑴基于数据源的的“脏”数据分类
①单数据源
模式层(数据库的结构,即关系结构)
实例层(关系中具体存储的数据记录或元组)
②多数据源
⑵基于清洗方式的“脏”数据分类
①独立型“脏”数据
②依赖型“脏”数据:主要包括缺失数据和重复数据。

三.数据清洗的策略
1.一般清洗策略

1)手工清洗策略,即人工修改
2)自动清洗策略,通过专门的程序进行修改
3)特定应用领域的清洗策略,根据概率统计学原理检测并修改数值异常记录
4)与特定应用领域无关的清洗策略,根据相关算法检测并删除重复记录

2.混合的数据清洗策略

  以自动清洗为主。

四.常见的数据清洗方法:
缺失值的清洗
1、忽略缺失值数据。
2、填充缺失值数据。
重复值的清洗
基本思想:排组和合并。
方法:相似度计算、基于基本近邻排序算法。
错误值的清洗
方法:①使用统计分析的方法识别可能的错误值(偏差分析、识别分析等);②使用简单规则库(常识性规则、业务特定规则等)检测出错误值;③使用不同属性间的约束以及使用外部的数据检测和处理错误值。

五.数据清洗基本流程:
原始数据

数据分析

定义数据清洗的策略和规则

搜寻并确定错误实例

纠正发现的错误

干净数据回流

目标数据
 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值