反映原始数据分布的特征,可以进行多组数据分布特征的比较。
绘制方法:
- 上四分位点(Quartile): Q 3 Q_3 Q3
- 中位数: Q 2 Q_2 Q2
- 下四分位点: Q 1 Q_1 Q1
- 四分位距(InterQuartile Range,IQR): I Q R = Q 3 − Q 1 IQR = Q_3-Q_1 IQR=Q3−Q1
- 上边缘:非异常值范围内的最大值, Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR
- 下边缘:非异常值范围内的最小值, Q 1 − 1.5 I Q R Q_1-1.5IQR Q1−1.5IQR
作用:
异常值处理: 异常值被定义为小于 Q 1 − 1.5 I Q R Q_1-1.5IQR Q1−1.5IQR或大于 Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR的值。
- 箱形图的绘制依靠实际数据,不需要事先假定服从特定的分布形式,没有对数据作出任何限制性要求,只是真实直观地表现出数据形状的本来面貌。
- 箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐压性,多达25%的数据可以变得任意远而不会很大地扰动四分位数。