数据异常值检测和过滤

最新推荐文章于 2024-04-21 09:54:55 发布

my_白白白

最新推荐文章于 2024-04-21 09:54:55 发布

阅读量1.7k

点赞数 1

分类专栏： juyter notebook IPython 文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41170489/article/details/103913950

版权

本文介绍了数据异常值的检测和过滤方法，包括使用describe函数查看统计量，处理空值和重复值。对于异常值，通过数值超过3倍标准差或基于四分位数的方法进行判断，并结合业务场景确定。同时，利用std函数计算标准差，筛选并删除异常数据。

摘要由CSDN通过智能技术生成

数据异常值检测和过滤

查看数据信息
info
head
describe

使用describe（）函数查看每一列的描述性统计量
空值处理：isnull（）判空 fillna（）填充 dropna（）删除
重复值处理：duplicated（）查看重复行 drop_duplicates() 删除重复行
异常值处理：

（整列数据像转换成标准的正态分布）数值 > 3*std
离群点：Q1 Q3 IQR=Q3-Q1 UP_LEVEL=Q3+1.5IQR BOOTOM_LEVEL=Q1 -1.5IQR
结合业务场景进行异常值判定

使用std（）函数可以求得DataFrame对象每一列的标准差。
获取异常数据的索引
根据每一列或行的标准差，对DataFrame元素进行过滤
借助any（）或all（）函数，测试是否有True，有一个或以上返回True，反之返回False
对每一列应用筛选条件，去除标准差太大的数据
删除特定索引df.drop(labels,inplace=True)

df.drop(labels=df

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。