盒须图,又叫箱线图,是一种用作显示一组数据分散情况资料的统计图。盒须图能够比较直观的显示数据集的分散程度、异常值等信息。
盒须图
盒须图基础
盒须图包括六个统计量:最小值,下四分位数(Q1),中位数,上四分位数(Q3),最大值、异常值。下四分位数、中位数、上四分位数组成一个“带有隔间的盒子”。
上四分位数到最大值之间建立一条延伸线,这个延伸线成为“胡须”。
- 中位数:所有数据按由高到低顺序排列,处于正中间位置的值。
- 上四分位数(Q3)、下四分位数(Q1):所有数据按由高到低顺序排列,处于25%位置的值为上四分位数,处于75%位置的值为下四分位数。下四分位数与上四分位数之差,即Q3-Q1,称为四分位距,简称IQR。
- 上边缘、下边缘:上边缘视为盒须图的最大观测值,下边缘为最小观测值。通常,上边缘=Q3+1.5IQR,下边缘=Q1-1.5IQR。
- 异常值:位于上边缘或下边缘以外的数据,视为异常值
- 须:上四分位数到上边缘之间连线,以及下四分位数到下边缘之间的连线,称为“须”,用于表示数据正常值的分布情况。