数据清洗

最新推荐文章于 2024-09-09 00:01:32 发布

cyllalala123

最新推荐文章于 2024-09-09 00:01:32 发布

阅读量215

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyllalala123/article/details/112310984

版权

在数据分析的过程中，原始数据可能在采集的过程中会出现空值或者重复值又或是异常值，为了避免对结果产生影响，我们会对这些数据进行清理。

数据清洗主要做这样三件事： 1.处理缺失值 2.处理重复值（一般指重复行数据） 3.处理异常值

首先要做的是先进行导入必用库：
在这里插入图片描述

然后对于缺失值，我们一般会用近邻数据来补充，这个时候主要会用到 fillna（） 这个函数，在DataFrame中用fillna() 取近邻值，我们一般这么写：df.fillna（method = '', axis = ），在其中的method中，如果要向前取值，则可以写 ffill（forwar fill），若是向后取值，则是bfill（backfill），axis在其中与平时相同，0表示列，1表示行。

这是一个含有几个空值的一些数据，我们使用 fillna（）函数进行处理，
在这里插入图片描述

像这样用指令处理
在这里插入图片描述
则会有这样的结果

如果要处理重复值，则主要用drop_duplicates这个代码来处理。
比如说刚才那些数据我们让其中几行有一些重复数据

可以看到其中的第三行和第六行全是4，这个时候我们最多保留一行。
如果选择保留后一行，则可以这样写
在这里插入图片描述
如果选择保留前一行，则可以把keep = ‘last'改为keep = ‘first’

对异常数据的处理则是根据对异常数据判定的标准，删除那些数据。
比如这段数据中，设定以C列为基准，如果C列数据大于其两倍标准差，则被认定为异常数据。
在这里插入图片描述
那么我们应当先进行判断得到布尔值

判断为False的那些数据就是小于两倍标准差的数据，应当被保留，但False无法通过loc进行保留，所以我们反转布尔值进行判定，就可以保留小于两倍标准差的数据。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。