IQR箱线图

最近读论文看到有个实验里的箱线图,记录以下它的意义;

1 箱线图

首先说明箱线图中各条线的意义,一个箱线图表如下:请添加图片描述
以其中一个箱线为例(一个竖行),其从上到下分别为:
①最上的横线:上内限,表示上离群值边界,比上内限大的数据是outlier;
②方框的上边界:Q3,表示数据的上 1 4 \frac{1}{4} 41分界,超过Q3的数据按照大小排序在前25%;
🌂黄线:中位线,表示数据的中位数值;
④方框的下边界:Q1,表示数据的下 1 4 \frac{1}{4} 41分界,小于Q1的数据按照大小排序在后25%;
⑤最下的横线:下内限,表示下离群值边界,比下内限小的数据是outlier;
其中IQR=Q3-Q2,即两个四分位值的跨度;

五条线的数学统计意义如下表示:
在这里插入图片描述
①上内限的值 = m a x ( D a t a m a x , Q 3 + 1.5 I Q R ) =max(Data_{max},Q3+1.5IQR) =max(DatamaxQ3+1.5IQR),其数学意义为正态分布数据的99.65%分界线;
②Q3的数学意义表示正态分布数据的75%分界线,以及距离均值25%的上分界线;
🌂中位数没什么好说的;
④Q1的数学意义同Q3类似;
⑤下内线的值 = m i n ( D a t a m i n , Q 1 − 1.5 I Q R ) =min(Data_{min}, Q1-1.5IQR) =min(Datamin,Q11.5IQR),其数学意义与上内限类似;
IQR的数学意义是数据落在中间50%的跨度;
**注:由于上下限的max比较,所以使得上下限有时长度不一样,因为数据的边界值没有到达上下限;**比如下图中的左箱线图;
在这里插入图片描述

2 功能

2.1 识别异常值

箱线图注意依赖中间50%的数据确定上下阈值,两边25%中离群点不会对其产生影响,与直接计算均值方差相比其耐抗性更好;

2.2 比较几批数据的形状

同一数轴上几批数据的箱线图并列排列,几批数据中的中位数、尾长、异常值、分布区间都很清楚。各批数据的四分距大小,正常值的分布是集中还是分散,观察各方和和线段的长度即可。每批数据分布的偏如何,分析中位线和异常值的位置也可估计出来。

3 计算

对于数据大小为奇数和偶数的情况,箱线图IQR的计算会有所不同;

偶数:4 7 9 12 20
奇数:5 8 10 10 15 18 24

①确定中间位置
偶数情况下中间位置是9跟11的中间,没有对应到一个具体的位置;
奇数情况下中间位置是10;

偶数:4 7 9 | 11 12 20
奇数:5 8 10 |10| 15 18 24

②确定竖线左右两侧的中位数;
在①中所画竖线两侧计算中位数,分别即代表Q1和Q3;

偶数:4 _7_ 9 | 11 _12_ 20
奇数:5 _8_ 10 |10| 15 _18_ 24

③得到Q1和Q3即可完成后续计算;

参考文献:
1.MBA智库百科-箱线图
2.如何得到四分位差

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值