五数概括法(Five-number Summary)是一种对数据离散程度的描述方法。
(1)Min:最小值 ;
(2)Q1:第一四分位数(又称:下四分位数,First Quartile,Lower Quartile),指有25%的数据 ≤ Q1;
(3)Median:中位数 (又称:Q2, Second Quartile),中位数;
(4)Q3:第三四分位数(又称:上四分位数,Third Quartile,Upper Quartile),指有75%的数据 ≤ Q3;
(5)Max:最大值 ;
可以使用箱形图(boxplot)来描述这些统计值:
我们将Q3-Q1的值叫做IQR
箱型图的下边缘:Q1-1.5IQR
箱型图的上边缘:Q3+1.5IQR
Q3+1.5IQR 和 Q1-1.5IQR 两条线段之间称为内限
Q3+3IQR 和 Q1-3IQR 两条线段之外称为外限
内限以外的点表示的数据都是异常值
内限与外限之间的异常值为温和的异常值(mild outliers)
外限以外的异常值为极端的异常值(extreme outliers)
四分位距IQR=Q3-Q1