箱线图(Box-plot)


一、箱线图是什么?

  箱线图(英文:Box plot),又称为盒须图、盒式图、盒状图,是一种用作显示一组数据分散情况的统计图。1977年由美国著名统计学家约翰·图基(John Tukey)发明,因型状如箱子而得名。

二、包含内容及图标解释

Alt

  • 下四分位数(第一四分位数,Q1):将数据按照从小到大的顺序排列,位于25%处的数,即有25%的数据小于此值。
  • 中位数(第二四分位数,Q2):将数据按照从小到大的顺序排列,位于最中间的数,即有50%的数据小于此值。
  • 下四分位数(第三四分位数,Q3):将数据按照从小到大的顺序排列,位于75%处的数,即有75%的数据小于此值。
  • 四分位间距:IQR = Q3 - Q1
  • 内限:在Q3+1.5IQR和Q1-1.5IQR处执行异常值截断,称该处为内限,并认为内限外(大于Q3+1.5IQR或小于Q1-1.5IQR)的值为异常值。
  • 外限:处于内限以外的点表示的数据都是异常值,但在异常值中还存在区分,将Q3+3IQR和Q1-3IQR处称为外限,处于内限和外限之间的异常值称为温和异常值(mild outlier),处于外限以外的异常值则为极端异常值(extreme outlier)。
  • 上极值:刨除异常值后所有数据的最大值。
  • 下极值:刨除异常值后所有数据的最小值。

三、常见误区

  1. 上下极值不一定是数据的最大值和最小值,这要看数据中有没有异常值。
  2. 箱子的大小反映的是数据的分散情况,与数据的数量没有关系,箱子中包含数据数量为样本数量的50%,这意味箱子中数据的数量只和用于绘制该箱子所用的样本数据总数有关。
  3. 箱子的上下两条箱须的长度不一定相同,在选取上下极值时刨除了异常值,但刨掉异常值后的最大数据很可能小于Q3+1.5IQR,同理可知上下箱须的长度并不固定,因此也很有可能不等长。

四、拿到一张箱线图应该看什么?

  1. 判断数据位置分布,即上下极值、上下四分位数以及中位数等,搭配数据坐标轴含义可以得出该组数据的性质。例如当坐标轴表示的是实验误差时,那么若一组数据绘制出的箱体整体位置高于另一组数据绘制出的箱体时,则可说明该组数据的误差相对较大。
  2. 判断数据的波动情况,箱体部分表示了50%得到数据,因此箱体大小在一定程度上反映了50%数据的分布情况。箱体越窄或越扁,说明数据的波动性越小,数据越稳定;箱体越长越宽,说明数据波动性越大,数据越不稳定。
  3. 判断异常值,位于上限和下限之外的点即为异常值,异常值的数量和位置分布在一定程度上反映了数据的分布性质。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值