箱线图(Boxplot)

        箱线图(Boxplot)也称箱须图(Box-whisker Plot),箱形图等,1977年由美国著名统计学家约翰·图基(John Tukey)发明,是一种用作显示一组数据分散情况资料的统计图,利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。(来自百度百科和维基百科的理解)

箱线图在数据异常值检测中应用的好处:

         异常值是每一个数据科学家关注的对象,每个数据科学家都在分析异常值产生的原因,剔除异常值。
         箱形图就为我们提供了识别异常值的一个标准:异常值通常被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。这个定义来源于经验的判断,当然,可以根据数据情况进行调整。
         众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。

         箱形图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。

五个统计量:

首先,需要将一组值从小到大排列。

1.最小值

就是排在第一位的值

2.第一四分位数

第一四分位数(Q1)又称为“较小四分位数”,把一组值从小到大排列并分成四等分,处于三个分割点位置的得分就是四分位数,也就是样本所有数值从小到大排列后第25%的数字。

3.中位数

中位数(Q2),又称第二四分位数,等于该样本中所有数值由小到大排列后第50%的数字。

4.第三四分位数

第三四分位数(Q2),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

5.四分位距

四分位距(InterQuartile Range,IQR) ,第三四分位数与第一四分位数的差距。

计算实例:

实例1:刚好整除

数据:8、3、15、12、14、56、40、36、27、10、11  一共11个数值

由小到大的排列结果:3、8、10、11、12、14、15、27、36、40、56

Q1的位置=(11+1)/4=3     Q1=10

Q2的位置=(11+1)/2=6     Q2=14

Q3的位置=3*(11+1)/4=9 Q3=36

实例2:不整除:

数据:8、3、15、12、14、56  一共6个数值

由小到大的排列结果:3、8、12、14、15、46

第一种计算方式不容易出错,建议用第一种

Q1的位置=(6+1)/4=1.75     Q1=3+(8-3)*(1.75-1)=6.75或者 Q1=0.25×3+0.75×8=6.75

Q2的位置=(6+1)/2=3.5       Q2=12+(14-12)*(3.5-3)=13或者 Q2=0.5×12+0.5×14=13

Q3的位置=3*(6+1)/4=5.25 Q3=15+(46-15)*(5.25-5)=22.75 或者 Q3=0.75×15+0.25×46=22.75

上下限:

1.上限

上限是非异常范围内的最大值。

四分位距IQR=Q3-Q1,上限=Q3+1.5IQR

2.下限

下限是非异常范围内的最小值。

下限=Q1-1.5IQR

         箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。

上个图,直观感受下:

以上就是对箱线图的介绍,之后小白会在博文中Po出做的异常值检测的案例,欢迎大家指教~

  • 20
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值