数据清洗---读书笔记

1. 数据清洗的背景

1.1 数据清洗的原因:

数据的来源是广泛的,数据的类型是多而繁杂的,所以数据中会夹杂着不完整、重复以及错误的数据,直接使用会影响数据决策的准确性和效率。所以,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

1.2 数据质量

1.2.1 概念:数据质量指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求程度。

1.2.2 特点:

(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。

(2)数据质量可以借助信息系统度量,但独立于信息系统存在。

(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。

1.2.3 评价指标:

(1)准确性:数据的准确性就是要求数据中的噪声尽可能少

(2)完整性:完整性指的是数据信息是否存在缺失的状况

(3)简洁性:简洁性就是要尽量选择重要的本质属性,并消除冗余

(4)适用性:适用性是评价数据质量的重要标准。

1.2.4 数据质量的问题分类

(1)基于数据源的“脏”数据分类

1)单数据源问题:

单数据源的数据质量主要取决与它的模式对数据完整性约束的控制程度

2)多数据源问题

(2)基于清洗方式的“脏”数据分类

1)独立型“脏”数据:可通过记录或本身属性检验

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值