数据科学猫：数据预处理之数据清洗(Data Cleansing)

最新推荐文章于 2024-06-21 11:18:29 发布

进击的橘子猫

最新推荐文章于 2024-06-21 11:18:29 发布

阅读量2.7w

点赞数 12

分类专栏：数据分析与挖掘框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/81335640

版权

进击的橘子猫正式改名上线啦！

我的CSDN主页：https://blog.csdn.net/Orange_Spotty_Cat

也欢迎大家搜索微信公众号“进击的橘子猫”，我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧！

简介

本篇主要介绍机器学习建模中数据预处理步骤的数据清洗（Data Cleansing）部分。在本篇中，会对数据清洗的定义、目的以及清洗数据的方法进行讲解。

目录

一句话概括版
数据清洗的定义
数据清洗的目标与数据质量
数据清洗的方法
数据清洗的常见操作

一句话概括版

数据清洗就是通过检查并处理无关数据、重复数据、空数据、异常数据、错误数据等来全面提升数据质量的过程。

数据清洗的定义

数据清洗（Data Cleansing）是数据预处理的一部分，这个步骤从建模初期的特征加工就需要开始进行，并且这个步骤的成功与否会直接影响建模的效果。英文有句话叫“Garbage in, garbage out”，意思就是输入（的数据）是垃圾，输出（的数据）也是垃圾。对数据不加以清洗与规范就跑出的模型，大概率也是无法使用的。因此，我们才需要在建模初期，就对需要加工的数据进行数据检测与数据清洗，以保证数据的质量。

所以，数据清洗的过程可以简单理解为提高数据质量的过程。在数据清洗的过程中，需要有效的识别那些错误的、无效的、重复的、缺失的数据，并对其进行处理，最终提高数据质量的唯一性、完整性、一致性、有效性与准确性的要求。

数据清洗的目标与数据质量

前面已经说过，数据清洗的目标就是提高数据质量，因此，我们这里有必要理解一下什么才算是好的数据质量。

如上图所示，好的数据质量需要满足以下四个标准：

唯一性：不存在无意义的重复数据

最低0.47元/天解锁文章

进击的橘子猫

关注

12
点赞
踩
87

收藏

觉得还不错? 一键收藏
0
评论
数据科学猫：数据预处理之数据清洗(Data Cleansing)

简介由于数据源在实际生活中千奇百怪，因此不经任何处理就进入数据库的数据很可能违背数据质量三要素的要求。用这样的数据在进行后续的数据挖掘，其可靠性更加堪忧。虽然在数据挖掘中，均有过程用于处理缺失数据或异常值，但是这不过是在避免建模的过拟合。如若希望尽可能小让缺失值、噪声等脏数据影响数据挖掘的结果，更有效的方法应是提高数据质量，即进行数据清理过程。一句话解释版本：数据清洗就是通过缺失值处理...
复制链接

扫一扫

专栏目录

进击的橘子猫 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

6万+: 周排名

83万+: 总排名

77万+: 访问

: 等级

3478: 积分

719: 粉丝

588: 获赞

85: 评论

2870: 收藏

私信

关注

热门文章

分类专栏

最新评论

3.4.2数据标准化（一） - Z-Score标准化
Flynn1392: CSDN是越来越封闭了
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 或者说，文章里出现的混淆矩阵默认一个前提：以猫为例(猪狗同理)，真猫都会被检测为猫猪狗中的一种，并且检测到的假猫只来自猪或者狗。这里忽略了背景问题：一是真猫没有被识别为猫猪狗，而当作背景漏检了；二是背景区域(非猫猪狗)也可能被检测为猫。所以想问一下：当背景作为一个类，而未被标注时，应该怎样计算ACC？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 请问ACC的定义“分类模型所有判断正确的结果占总观测值的比重”中“观测值”的定义是什么？比如图片中目标检测场景：狗数真实值为10，模型认为有5只狗、2只猫、剩余3只认为不属于已知类别（相当于认为是背景），那这3只计入观测值吗？同理，牛数真实值为10，模型认为有12头牛，其中包含10头牛和2个背景（背景被误检测为牛），那这2个背景计入观测值吗？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
Mr·小鱼: 博主说错了，我查了一下。第一类错误，把真当假，也就是FN。第二类错误，把假当真，也就是FP。
3.4数据预处理（四） - 数据转换（Data Transform）
撒野448: 大佬你好，聚类的链接点进去是空的，请问文章还在吗？很想知道怎么聚类！谢谢~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。