箱线图的四分位怎么计算_箱线图

1bcd2ca0af478a88bb6002a26971b9b2.png

箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。

1.什么是四分位数

Q1(又称下四分位数)=该样本中所有数值由小到大排列后第25%的数字。
Q2(又称中位数)=该样本中所有数值由小到大排列后第50%的数字。
Q3(又称上四分位数)=该样本中所有数值由小到大排列后第75%的数字。
IQR(又称四分位间距)=Q3-Q1

计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):

Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4

对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:

Q1的位置=(11+1)/4=3,该位置的数字是15。
Q2的位置=(11+1)/2=6,该位置的数字是40。
Q3的位置=3(11+1)/4=9,该位置的数字是45。

而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:

Q1的位置=(6+1)/4=1.75
Q2的位置=(6+1)/2=3.5
Q3的位置=3(6+1)/4=5.25

这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-38)×(3.5的小数部分),即38+1×0.5=38.5。该结果实际上是38和39的平均数。

同理,Q1、Q3的计算结果如下:

Q1 = 8+(17-8)×0.75=14.75
Q3 = 42+(44-42)×0.25=42.5

以上明白了Q1、Q2、Q3的计算方法,那么上限和下限如何去计算呢

上限:非异常范围内的最大值。一般情况下:上限=Q3+1.5IQR

下限:非异常范围内的最小值。一般情况下:下限=Q1-1.5IQR

系数K=1.5是一种经过大量分析和经验积累起来的标准,一般情况下不做调整。

2. 如何用箱线图分析异常值,偏态,数据分布形状?——数据分析

箱线图最重要的用途就是识别异常值,且箱线图形态分布不受异常值的影响,经验表明它在处理需要特别注意的数据方面表现不错。

  • 异常值:据我理解数据集中大于上限或者小于下限的值就是异常值。
  • 偏态:主要从中位数的偏向来看分布的偏向,如果中位数的那条线与上四分位的那条线距离比较窄,那么数据集中的数据值在上四分位数和中位数之间的会比较多。反之,如果中位数的那条线与上四分位的那条线距离比较宽,那么数据集中的数据值在下四分位数和中位数之间的会比较多。
  • 数据分布形状:四分位间距框(IQR)越小,代表数据集越集中,否则说明越分散。同理,对于上限与下限也同样适用。
  • 1
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值