箱线图
箱线图概念
箱线图(Box-whisker plot)由John Tukey在1977年提出,用于显示数据的分布特征,箱线图作图要素包括上边缘、上四分位数Q3、中位数、下四分位数Q1、下边缘和异常值。
矩形盒两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。
箱线图计算
- 下四分位数Q1计算
(1)确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
(2)根据位置,计算相应的四分位数。
例如:
Q1所在的位置=(14+1)/4=3.75,介于第三项和第四项之间
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;
- 上四分位数Q3计算
例如:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25
- 四分位距IQR=Q3-Q1
- 上限:上限是非异常范围内的最大值。上限=Q3+1.5IQR
- 下限:非异常范围内的最小值。下限=Q1-1.5IQR
- 上下限两条线段称为异常值截断点,在其范围内的称为
内限
- 在Q3+3IQR和Q1-3IQR处画两条线段,称其为
外限
。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)
箱线图用途
- 识别数据中
异常值
- 判别数据批的
偏态
和尾重
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数)。偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。 - 比较几批数据的形状
几批数据的中位数、尾长、异常值、分布区间等形状信息可借由箱线图清晰的看出来。