![1bcd2ca0af478a88bb6002a26971b9b2.png](https://img-blog.csdnimg.cn/img_convert/1bcd2ca0af478a88bb6002a26971b9b2.png)
箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。
1.什么是四分位数
Q1(又称下四分位数)=该样本中所有数值由小到大排列后第25%的数字。
Q2(又称中位数)=该样本中所有数值由小到大排列后第50%的数字。
Q3(又称上四分位数)=该样本中所有数值由小到大排列后第75%的数字。
IQR(又称四分位间距)=Q3-Q1
计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):
Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4
对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:
Q1的位置=(11+1)/4=3,该位置的数字是15。
Q2的位置=(11+1)/2=6,该位置的数字是40。
Q3的位置=3(11+1)/4=9,该位置的数字是45。
而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:
Q1的位置=(6+1)/4=1.75
Q2的位置=(6+1)/2=3.5
Q3的位置=3(6+1)/4=5.25
这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-38)×(3.5的小数部分),即38+1×0.5=38.5。该结果实际上是38和39的平均数。
同理,Q1、Q3的计算结果如下:
Q1 = 8+(17-8)×0.75=14.75
Q3 = 42+(44-42)×0.25=42.5
以上明白了Q1、Q2、Q3的计算方法,那么上限和下限如何去计算呢
上限:非异常范围内的最大值。一般情况下:上限=Q3+1.5IQR
下限:非异常范围内的最小值。一般情况下:下限=Q1-1.5IQR
系数K=1.5是一种经过大量分析和经验积累起来的标准,一般情况下不做调整。
2. 如何用箱线图分析异常值,偏态,数据分布形状?——数据分析
箱线图最重要的用途就是识别异常值,且箱线图形态分布不受异常值的影响,经验表明它在处理需要特别注意的数据方面表现不错。
- 异常值:据我理解数据集中大于上限或者小于下限的值就是异常值。
- 偏态:主要从中位数的偏向来看分布的偏向,如果中位数的那条线与上四分位的那条线距离比较窄,那么数据集中的数据值在上四分位数和中位数之间的会比较多。反之,如果中位数的那条线与上四分位的那条线距离比较宽,那么数据集中的数据值在下四分位数和中位数之间的会比较多。
- 数据分布形状:四分位间距框(IQR)越小,代表数据集越集中,否则说明越分散。同理,对于上限与下限也同样适用。