小瓜讲数据分析——数据清洗

最新推荐文章于 2024-10-14 17:43:07 发布

努力的骆驼

最新推荐文章于 2024-10-14 17:43:07 发布

阅读量767

点赞数

文章标签：数据清洗数据分析缺失值重复项异常值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012915522/article/details/91126554

版权

0 数据清洗的应用场景

数据清洗主要是指在收集到数据之后进一步的定量分析和数据挖掘之前做的一步工作。
在现实应用中收集到的数据都或多或少存在某些缺陷，主要包括：

数据不完整（完整性要求）
数据不唯一（一致性要求）
数据不合法（逻辑性要求）

0.1. 数据不完整

收集的数据集合经常是不够完整的，会有部分缺失值（不满足完整性要求），需要进一步做数据预处理才能进行下一步的定量分析或者数据挖掘。

0.2. 数据不唯一

收集的数据经常会遇到同样的项存在多个值的问题，可能是由于重复收集，也可能是由于数据的多种来源。
所以数据不唯一存在两种情况：1）重复项（同项同值）；2）同项不同值。

0.3. 数据不合法

收集的数据经常会遇到异常值，比如年龄值为-20等违背常识，或者正态分布下取到3σ（4σ、5σ）以外的数值（违背数理逻辑）。

综上所述，数据清洗第一步就是处理以下问题：

处理缺失值
处理重复项（同项同值或同项不同值）
处理异常值

1. 处理缺失值

处理缺失值有以下几种方案：

提炼其他信息补全
通过前后数据插值
剔除数据

2. 处理重复项

重复项根据不同情况有不同处理方法，对于同项同值的情况，只要保存其中的一组值即可。
同项不同值的处理相对就麻烦一点。

3. 处理异常值

判定异常值有以下几种方案：

区间判定
四分位法判定（箱形图分析）
3σ原则判定
基于距离的判定
基于密度的判定
基于聚类方法判定

处理异常值有以下几种方案：

剔除
均值修正
视为缺失值

参考文献

文章导引列表：
机器学习

数据分析

数据可视化

努力的骆驼

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

努力的骆驼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。