异常值处理
一.简介
异常值,即在数据集中存在不合理的值,又称离群点。
异常值判断
二.判别方法
1.简单统计分析
对属性值进行一个描述性的统计(规定范围),从而查看哪些值是不合理的(范围以外的值)。
2.3δ原则
![97ab7fd3b2046397e705d2e27fefac20.png](https://i-blog.csdnimg.cn/blog_migrate/824f580f23e75ae128d53b6e5fe8b071.jpeg)
若数据服从正态分布:根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,认为该样本为异常值。
![5d97546049d839a18bab2e60c5432416.png](https://i-blog.csdnimg.cn/blog_migrate/006284fc89fdb7cfe34f6ea973267196.jpeg)
![84252dfc1ce55cf28178748097286216.png](https://i-blog.csdnimg.cn/blog_migrate/1813182f2cdd2b312e774eb61020bda7.jpeg)
根据概率值的大小可以判断 x 是否属于异常值。
3.使用距离检测多元离群点
当数据不服从正态分布时,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。
4.箱线图
![076d9b912347e96f4e04b90146dfe189.png](https://i-blog.csdnimg.cn/blog_migrate/4aca1909ff71173d4330aab00cbda88a.jpeg)
Q3+1.5IQR和Q1-1.5IQR
四分位距IQR=Q3-Q1
箱形图提供了一种只用5个点对数据集做简单总结的方式。这5个点包括中点、Q1、Q3、分部状态的高位和低位。箱形图很形象的分为中心、延伸以及分布状态的全部范围。
箱形图的绘制步骤
1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。
2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。
3、在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
4、从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间。
5、用“〇”标出温和的异常值,用“*”标出极端的异常值。相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。至此一批数据的箱形图便绘出了。
三.处理方法
- 删除含有异常值的记录
- 将异常值视为缺失值,使用缺失值处理方法来处理
- 用平均值来修正
- 不处理