python异常值处理实例_Python机器学习：异常值查找和处理

最新推荐文章于 2024-03-16 22:38:59 发布

沈水逸闲

最新推荐文章于 2024-03-16 22:38:59 发布

阅读量2.9k

点赞数

文章标签： python异常值处理实例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42422362/article/details/114428337

版权

再一次的通过写文章的方式强化记忆，本文内容均来源于以上文章。先说如何处理检测到的异常值？

有些算法对异常值很敏感，如逻辑回归算法。如果不处理，用该算法拟合出来的模型的效果、精确度会很低。有些算法对异常值不敏感，可以不处理异常值。由于目前学习到的3种算法(线性回归、逻辑回归、随机森林)，所以还是处理异常值

处理异常值可以像处理缺失值的方法一样：删除或用特殊值代替如何查找到异常值？查看数据的描述统计信息describe()

import pandas

df.describe() #只针对数值类型数据

2. 绘制散点图

3. 绘制数据分布图3σ原则：如果数据呈正态分布，异常值定义为超过3倍标准差的数值

如果数据不满足正态分布，也可以用远离平均值多少倍标准差来定义异常值

4. 四分位距法只取上四分位数(Q1)到下四分位数(Q3)之间的数据。

四分位距法：将数据从小到大排列，只取中间的50%。也就是25%到75%段的数据。可以有效剔除异常值(极大/极小值)。

计算四分位数 Q1、Q3

【例】给出一组数据：2 3 1 4 2 3 9 7 15 99 38 888 19

将它们从小到大重新排序：1 2 2 3 3 4 7 9 15 19 38 99 888

找出从整个数据的中位数Q2：7

找出从极小值到Q2这段数据的中位数Q1：3

找出Q2到极大值这段数据的中位数Q3：19

5. Tukey's test只取最小估计值到最大估计值之间的数据。

最小估计值=Q1-k(Q3-Q1)

最大估计值=Q1+k(Q3-Q1)

k=1.5 中度异常 k=3 极度异常

用numpy包里的percentile函数来实现tukey's test

import numpy

percentile=numpy.percentile(df['length'],[0,25,50,75,100])

Min=percentile[1]-1.5*(percentile[3]-percentile[1])

Max=percentile[1]+1.5*(percentile[3]-percentile[1])

6. 绘制箱型图boxplot

import seaborn

from matplotlib import pyplot

f,ax=pyplot.subplots(figsize=(10,8))

seaborn.boxplot(y='length',data=df,ax=ax)

pyplot.show()

以上是检测异常值的常用的简单方法。还有一些复杂的算法可以检测异常值，之后再根据需要和兴趣继续学习

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python异常值处理实例_Python机器学习：异常值查找和处理

再一次的通过写文章的方式强化记忆，本文内容均来源于以上文章。先说如何处理检测到的异常值？有些算法对异常值很敏感，如逻辑回归算法。如果不处理，用该算法拟合出来的模型的效果、精确度会很低。有些算法对异常值不敏感，可以不处理异常值。由于目前学习到的3种算法(线性回归、逻辑回归、随机森林)，所以还是处理异常值处理异常值可以像处理缺失值的方法一样：删除或用特殊值代替如何查找到异常值？查看数据的描述统计信息d...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。