数据科学-箱线图理解


箱线图

箱线图概念

箱线图(Box-whisker plot)由John Tukey在1977年提出,用于显示数据的分布特征,箱线图作图要素包括上边缘、上四分位数Q3、中位数、下四分位数Q1、下边缘和异常值。
矩形盒两端边的位置分别对应数据批的上下四分位数(Q3和Q1)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。
**BOX plot**

箱线图计算

  • 下四分位数Q1计算

(1)确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
(2)根据位置,计算相应的四分位数。
例如:
Q1所在的位置=(14+1)/4=3.75,介于第三项和第四项之间
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;
  • 上四分位数Q3计算
例如:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25
  • 四分位距IQR=Q3-Q1
  • 上限:上限是非异常范围内的最大值。上限=Q3+1.5IQR
  • 下限:非异常范围内的最小值。下限=Q1-1.5IQR
  • 上下限两条线段称为异常值截断点,在其范围内的称为内限
  • 在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)

箱线图用途

  1. 识别数据中异常值
  2. 判别数据批的偏态尾重
    对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数)。偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
  3. 比较几批数据的形状
    几批数据的中位数、尾长、异常值、分布区间等形状信息可借由箱线图清晰的看出来。

参考文章

1
2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值