再一次的通过写文章的方式强化记忆,本文内容均来源于以上文章。先说如何处理检测到的异常值?
有些算法对异常值很敏感,如逻辑回归算法。如果不处理,用该算法拟合出来的模型的效果、精确度会很低。有些算法对异常值不敏感,可以不处理异常值。由于目前学习到的3种算法(线性回归、逻辑回归、随机森林),所以还是处理异常值
处理异常值可以像处理缺失值的方法一样:删除或用特殊值代替如何查找到异常值?查看数据的描述统计信息describe()
import pandas
df.describe() #只针对数值类型数据
2. 绘制散点图
3. 绘制数据分布图3σ原则:如果数据呈正态分布,异常值定义为超过3倍标准差的数值
如果数据不满足正态分布,也可以用远离平均值多少倍标准差来定义异常值
4. 四分位距法只取上四分位数(Q1)到下四分位数(Q3)之间的数据。
四分位距法:将数据从小到大排列,只取中间的50%。也就是25%到75%段的数据。可以有效剔除异常值(极大/极小值)。
计算四分位数 Q1、Q3
【例】给出一组数据:2 3 1 4 2 3 9 7 15 99 38 888 19
将它们从小到大重新排序:1 2 2 3 3 4 7 9 15 19 38 99 888
找出从整个数据的中位数Q2:7
找出从极小值到Q2这段数据的中位数Q1:3
找出Q2到极大值这段数据的中位数Q3:19
5. Tukey's test只取最小估计值到最大估计值之间的数据。
最小估计值=Q1-k(Q3-Q1)
最大估计值=Q1+k(Q3-Q1)
k=1.5 中度异常 k=3 极度异常
用numpy包里的percentile函数来实现tukey's test
import numpy
percentile=numpy.percentile(df['length'],[0,25,50,75,100])
Min=percentile[1]-1.5*(percentile[3]-percentile[1])
Max=percentile[1]+1.5*(percentile[3]-percentile[1])
6. 绘制箱型图boxplot
import seaborn
from matplotlib import pyplot
f,ax=pyplot.subplots(figsize=(10,8))
seaborn.boxplot(y='length',data=df,ax=ax)
pyplot.show()
以上是检测异常值的常用的简单方法。还有一些复杂的算法可以检测异常值,之后再根据需要和兴趣继续学习