数据清洗第一章读书笔记

最新推荐文章于 2025-03-31 12:30:07 发布

guyanxi

最新推荐文章于 2025-03-31 12:30:07 发布

阅读量1k

点赞数

分类专栏：数据清洗读书笔记文章标签： etl 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guyanxi/article/details/120187209

版权

数据清洗是处理不准确、不完整、冗余和不适用的“脏”数据，以提升数据质量。主要关注准确性、完整性、简洁性和适用性四大指标。脏数据分为基于数据源和清洗方式两类，涉及单数据源问题如缺失值、拼写错误，多数据源问题如名字冲突和结构冲突。数据清洗流程包括数据分析、定义清洗策略、错误实例确定和纠正。常见清洗方法包括处理缺失值、重复值和错误值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据清洗的目的是解决“脏”数据问题，即不是将“脏”数据洗掉，而是将“脏”数据清洗干净。

一数据质量的评价指标

1.准确性

要求数据中的噪声尽可能小。为提高数据的准确性，需要对数据集进行降噪处理。

2.完整性

指数据信息是否存在缺失的情况。

3.简洁性

就是要尽量选择中药的本质属性，并消除冗余。在数据挖掘时，特征的个数越多，产生噪声的机会就越大。

4.适用性

适用性是评价数据质量的重要指标。

二数据质量的问题分类

1.基于数据源的“脏”数据分类

脏数据：通常情况下，将数据源中不完整，重复以及错误的数据称为“脏”数据。

基于数据源的“脏”数据质量问题可以分为单数据源问题和多数据源问题

1.1单数据源问题

单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。

单数据源的实例层问题是由于数据在模式层无法预防的错误和不一致引起的。典型的单数据源实例层问题包括缺失值，拼写错误（即在数据输入时容易出现），属性依赖冲突（即不满足属性间的依赖关系，如城市名与邮政编码不满足对应关系等）以及相似重复记录。

1.2多数据源问题

单数据源情况下出现的问题在多数据源情况下变的更加严重。

多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。的

名字冲突表现在同一个名字表示不同的对象，或不同的名字表示同一个对象；结构冲突的典型表现是不同的数据源中同一对象用不同的数据表示。

2.基于清洗方式的“脏”数据分类

从数据清洗方式的设计者角度看，可以将“脏”数据分为“独立性”“脏”数据和““依赖性”“脏”数据”。

2.1 独立性“脏”数据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。