箱线图简介
主要能够体现数据的分布,离散程度,及异常点
![](https://img-blog.csdnimg.cn/20190402145815308.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDAwNjYxMg==,size_16,color_FFFFFF,t_70)
IQR (Interquartile range): ( IQR = Q3 - Q1 )
Q1:第一四分数
Q3:第三四分数
MEDIAN:中位点
OUTLIERS:异常值 异常值的判定为在(Q1 - 1.5 IQR, Q3 + 1.5 IQR)范围之外的点(即蓝色区域的点)
whisker:箱须,即整体数据(除异常点之外)达到最小值和达到最大值的点与箱体的连线
注1:一般讨论的箱线图的下限和上限指的分别是 Q1 - 1.5 IQR 和 Q3 + 1.5 IQR,注意区分上下限和箱须whisker并不是相同的东西,因此箱须的长度并不一定等长
注2:异常值可分为mild outlier 和 extreme outlier ,区别在于 extreme outlier的范围为 (Q1 - 3 IQR, Q3 + 3 IQR)范围之外的点
Python-Matplotlib绘制
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
x = abs(np.random.randn(100))
plt.boxplot(x, vert=False)
plt.show()
![](https://img-blog.csdnimg.cn/20190402152533970.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDAwNjYxMg==,size_16,color_FFFFFF,t_70)