数据清洗---读书笔记

最新推荐文章于 2021-09-13 11:04:02 发布

qq_45807609

最新推荐文章于 2021-09-13 11:04:02 发布

阅读量552

点赞数

文章标签： etl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45807609/article/details/120252767

版权

1. 数据清洗的背景1.1 数据清洗的原因：数据的来源是广泛的，数据的类型是多而繁杂的，所以数据中会夹杂着不完整、重复以及错误的数据，直接使用会影响数据决策的准确性和效率。所以，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.2 数据质量1.2.1 概念：数据质量指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求程度。1.2.2 特点：（1）“业务需求”会随时间变化，数据质量也会随时间发生变化。（2）数据质量可以借助信息系统度量，但独立于信息系统

摘要由CSDN通过智能技术生成

1. 数据清洗的背景

1.1 数据清洗的原因：

数据的来源是广泛的，数据的类型是多而繁杂的，所以数据中会夹杂着不完整、重复以及错误的数据，直接使用会影响数据决策的准确性和效率。所以，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

1.2 数据质量

1.2.1 概念：数据质量指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求程度。

1.2.2 特点：

（1）“业务需求”会随时间变化，数据质量也会随时间发生变化。

（2）数据质量可以借助信息系统度量，但独立于信息系统存在。

（3）数据质量存在于数据的整个生命周期，随着数据的产生而产生，随着数据的消失而消失。

1.2.3 评价指标：

（1）准确性：数据的准确性就是要求数据中的噪声尽可能少

（2）完整性：完整性指的是数据信息是否存在缺失的状况

（3）简洁性：简洁性就是要尽量选择重要的本质属性，并消除冗余

（4）适用性：适用性是评价数据质量的重要标准。

1.2.4 数据质量的问题分类

（1）基于数据源的“脏”数据分类

1）单数据源问题：

单数据源的数据质量主要取决与它的模式对数据完整性约束的控制程度

2）多数据源问题

（2）基于清洗方式的“脏”数据分类

1）独立型“脏”数据：可通过记录或本身属性检验

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据清洗---读书笔记

1. 数据清洗的背景1.1 数据清洗的原因：数据的来源是广泛的，数据的类型是多而繁杂的，所以数据中会夹杂着不完整、重复以及错误的数据，直接使用会影响数据决策的准确性和效率。所以，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.2 数据质量1.2.1 概念：数据质量指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求程度。1.2.2 特点：（1）“业务需求”会随时间变化，数据质量也会随时间发生变化。（2）数据质量可以借助信息系统度量，但独立于信息系统
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。