《数据清洗ETL》——第一章笔记

1.1 数据清洗的背景

  1.1.1 数据质量概述

     数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。但是在不同的业务场景中,数据消费者对数据质量有各自不同的观点。  

    数据质量的特点如下:

        1.“业务需求”会随时间变化,数据质量也会随时间变化。

        2.数据质量可以借助信息系统度量,但独立于信息系统存在。        

        3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。

  1.1.2 数据质量的评价指标      

      1.准确性

      2.完整性

      3.简洁性

      4.适用性

   1.1.3 数据质量的问题分类

          数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。

          数据源的脏数据分类:

        (1)单数据源问题

               单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。由于数据模式和完整性约束控制了数据的范围,如果单数据源没有数据模式,就会对进人和存储的数据缺乏相应的限制,此时很有可能出现拼写错误的数据和不一致的数据。
        (2)多数据源问题

              单数据源情况下出现的问题在多数据源情况下变得更加严重。每个数据源中都有可能包含“脏"数据.而且每个数据源中的数据表示方法都各自不同.还有可能出现数据重复或矛盾冲突。因为在很多情况下,各个数据源都是为了满足某一个特定需要而单独设计、配置和维护,这很大程度上导致数据库管理系统数据模型模式设计和实际数据的异构性。

           清洗方式的脏数据分类:

               基于数据源的“脏”数据分类方法需要为每种类型的“脏”数据设计单独的清洗方式。从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。

1.2 数据清洗的定义

     数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据 仓库领域、数据挖掘领域以及数据质量管理领域。

1.3 数据清洗的原理

     数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。

1.4 数据清洗的基本流程

    数据清洗的基本流程一共分为5个步骤,它们分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。

1.5 数据清洗的策略

   在数据仓库环境中,数据清洗可以在不同阶段实现,并且存在不同的清洗策略,目前数据清洗的策略主要分为一般的数据清洗策略和混合的数据清洗策略。

1.6 常见的数据清洗方法

一.缺失值的清洗
        缺失值的清洗主要分为两类,及忽略缺失值数据和填充缺失值数据。
         (1)忽略缺失值数据方法是直接通过删除属性或实例忽略缺失值的数据。  
         (2)填充缺失值数据方法是使用最接近缺失值的值替代缺失的值,包括人工填写缺失值,使用一 个全局常量填充空缺值(即将缺失的值用同一个常量Unknown替换)以及使用属性的平均值、中间值、最大(小)值填充缺失值,或使用最可能的值(即通过回归、贝叶斯形式化方法的工具或决策树归纳确定的值)填充缺失值。
二.重复值的清洗
         目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法。
          (1)相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值,进行加权平均后得到记录的相似度,若两个记录相似度超过某一个阈值,则认为两条记录匹配,否则认为这两条记录指向不同的实体。
          (2)基于基本近邻排序算法的核心思想是为了减少记录的比较次数,在按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录判定它们是否相似,从而确定并处理重复记录。
 三.错误值的清洗
错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值(如偏差分析、识别不遵守分布或回归方程的值)、使用简单规则库(即常识性规则、业务特定规则等)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。
 


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值