数据清洗第一章读书笔记

数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据清洗干净。

一 数据质量的评价指标

1.准确性

要求数据中的噪声尽可能小。为提高数据的准确性,需要对数据集进行降噪处理。

2.完整性

指数据信息是否存在缺失的情况。

3.简洁性

就是要尽量选择中药的本质属性,并消除冗余。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。

4.适用性

适用性是评价数据质量的重要指标。

二 数据质量的问题分类

1.基于数据源的“脏”数据分类

脏数据:通常情况下,将数据源中不完整,重复以及错误的数据称为“脏”数据。

基于数据源的“脏”数据质量问题可以分为单数据源问题和多数据源问题

1.1单数据源问题

单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。

单数据源的实例层问题是由于数据在模式层无法预防的错误和不一致引起的。典型的单数据源实例层问题包括缺失值,拼写错误(即在数据输入时容易出现),属性依赖冲突(即不满足属性间的依赖关系,如城市名与邮政编码不满足对应关系等)以及相似重复记录。

1.2多数据源问题

单数据源情况下出现的问题在多数据源情况下变的更加严重。

多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。的

名字冲突表现在同一个名字表示不同的对象,或不同的名字表示同一个对象;结构冲突的典型表现是不同的数据源中同一对象用不同的数据表示。

2.基于清洗方式的“脏”数据分类

从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立性”“脏”数据和““依赖性”“脏”数据”。

2.1 独立性“脏”数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值