箱线图,又称作箱须图(box-whisker
plot)是利用数据中的五个特征值——最小值、第一四分位点、中值、第三四分位点、最大值来描述数据的图形。箱线图可以粗略的估计数据是否具有对称性,粗略观察数据的分散程度,特别可用于对几个样本的比较。
箱线图美中不足之处在于它不能提供关于数据分布偏态和尾重程度的精确度量;对于批量较大的数据集,箱线图反映的形状信息更加模糊;用中位数代表总体平均水平有一定的局限性等等。所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述数据集的分布形状。
很多统计软件可以方便的绘制箱线图,比如SPSS和SAS等,而作为数学及工程界经常使用的MATLAB软件来说,它也提供了功能强大的统计工具箱,函数boxplot就可以用来方便的绘制箱线图。
首先,看一下箱线图的样式,及各部分的意义,如下图所示:
上图形象的说明了一幅箱线图的各种组分。使用箱线图可以直观的识别数据批中的异常值,箱线图中的异常值被定为Q1-1.5*IQR~Q3+1.5*IQR之外的值,具有一定的经验性。与其余异常值判别法比如3σ法不同的是,箱线图不用提前假设样本属于某种分布,依靠实际数据来直观显示。利用箱线图可以直观的判断数据的偏态和尾重。可以比较几组数据的形态。
通过箱线图的绘制过程来了解箱线图的意义:
绘制数轴
计算上四分位数(Q3),中位数,下四分位数(Q1)。
计算上四分位数和下四分位数之间的差值(Q3-Q1),即四分位数差(IQR,interquartile range)。