数据清洗概述

第1章 数据清洗概述
一、数据清洗的背景
当今时代,企业信息化的要求越来越迫切。我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用于支持企业战略决策。
1.数据质量概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量与决策有关,不同的决策者对数据质量的高低要求也是不同的。
数据质量的显著特点如下:
· “业务需求”和数据质量会随时间变化。
· 数据质量可以借助信息系统度量,但独立于信息系统存在。
· 数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
2. 数据质量的评价指标
①准确性
数据的准确性就是要求数据中的噪声尽可能少。
②完整性
完整性指的是数据信息是否存在缺失的情况。数据质量的完整性比较容易评估,一般 通过数据统计中的记录值和唯一值进行评估。
③简洁性
简洁性就是要尽量选择重要的本质属性,并消除冗余。
④适用性
适用性是评价数据质量的重要标准。从数据的实际效用上来说,适用性才是评价数据质量的核心准则。
数据的准确性、完整性和简洁性是为了保证数据的适用性。
3. 数据质量问题的分类
①基于数据源的“脏”数据分类
通常情况下,将数据源中不完整、重复以及错误有问题的数据称为“脏”数据。

单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。

单数据源情况下出现的问题在多数据源情况下变得更加严重。多数据源中存在的与模式有关的质量问题主要是名字冲突和结构冲突。
②基于清洗方式的“脏”数据分类
基于数据源的“脏”数据分类方法需要为每种类型的“脏”数据设计单独的清洗方式。

独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。独立型“脏”数据使用“数据合法性检验规则”检测数据字段的实际内容,若属性值不符合规则,则视为“脏”数据,此时可调用已定义的相关清洗方式,将其变为满足规则的数据,从而可以保证数据的合法性。
依赖性“脏”数据主要包括缺失数据和重复数据等“脏”数据。
二、数据清洗的定义
数据清洗技术是提高数据质量的有效方法。主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。
在数据仓库领域中,当多个数据库合并时或多个数据源进行集成时,都需要进行数据清洗。
在数据挖掘领域中,数据清洗是数据进行预处理过程的第一个步骤。
在数据质量管理领域中,数据质量管理是一个学术界和商业界都感兴趣的领域。
三、数据清洗的原理

需要注意的是,数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。
四、数据清洗的基本流程

  1. 数据分析
    数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。
  2. 定义数据清洗的策略和规则
    根据数据分析出的数据源个数和数据源中的“脏”数据程度定义数据清洗策略和规则,并选择合适的数据清洗算法。
  3. 搜寻并确定错误实例
    搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。
  4. 纠正发现的错误
    根据不同的“脏”数据存在形式的不同,执行相应的数据清洗和转换步骤解决原始数据源中存在的质量问题。
  5. 干净数据回流
    当数据被清洗后,干净的数据替代原始数据源中的“脏”数据,这样可以提高信息系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。
    五、数据清洗的策略
  6. 一般的数据清洗策略
    按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略。
    2.混合的数据清洗策略
    混合的数据清洗策略主要以自动清洗为主。
    六、常见的数据清洗方式
    1.缺失值的清洗
    缺失值的清洗方式主要分为两种,即忽略缺失值数据和填充缺失值数据。
    2.重复值的清洗
    目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似的计算和基于基本近邻排序算法等方法。
    3.错误值的清洗
    错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值,使用简单规则库检测出错误值,使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。
    七、小结
    本章主要讲解了数据预处理的相关知识,包括数据质量概述,数据质量的评价指标,数据质量的问题分类以及数据清洗的定义,数据清洗的原理、数据清洗的基本流程、数据清洗的策略和常见的数据清洗方法。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值