数据清洗（黑马程序员著）第一章读书笔记

最新推荐文章于 2023-12-27 17:56:40 发布

遇到困难睡大觉.

最新推荐文章于 2023-12-27 17:56:40 发布

阅读量860

点赞数

文章标签： r语言 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blessings_/article/details/120207280

版权

本文介绍了数据清洗的重要性，包括准确性、完整性、简洁性和适用性的评价指标，以及基于数据源和清洗方式的‘脏’数据分类。数据清洗原理、基本流程和方法如缺失值、重复值和错误值的清洗进行了详细阐述，旨在提高数据质量，确保大数据分析的准确性和效率。

摘要由CSDN通过智能技术生成

现实生活中，我们接触到的数据是海量的，来源广泛的，类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据，如果直接使用，会严重的影响数据决策的准确性和效率。因此，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

1.数据质量的评价指标

数据清洗的目的是为了将脏数据洗掉，提高数据质量。而数据质量的评价指标包括四方面：

（1）准确性

指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据，一般就视为是噪声或异常值，可通过常用的异常值检测方法聚类进行处理。

（2）完整性

指数据信息中是否存在缺失的状况。数据缺失的情况可能是整条数据记录的缺失，也可能是数据中的某个字段信息的记录缺失。不完整的数据会使其本身的借鉴价值大大降低。

（3）简洁性

指要尽量选择重要的本质属性，并消除冗余。在数据挖掘时，特征属性的个数越多，数据越容易出现噪声。因此进行决策时，往往要抓住反映问题的主要因素，而不是把问题的细节都搞得很清楚。

（4）适用性

前三个归根结底都是为了数据的实际效用，因此适用性是评价数据质量的核心准则。

2.数据质量的问题分类

（1）基于数据源的‘脏’数据分类

模式层是指数据库的结构，就是关系结构ÿ

最低0.47元/天解锁文章

遇到困难睡大觉.

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。