一、箱线图介绍
箱线图(Box Plot),也称为盒须图、箱形图、盒式图,是一种用于显示数据分布情况的图表。箱线图通常由五条线组成,包括最小值、第一四分位数、中位数、第三四分位数和最大值。其中,箱体表示了数据的四分位数范围,上下各有一个“盒须”表示了数据的范围。
箱线图可以用来检测数据的异常值和数据分布的形状,以及数据集的离散程度。如果数据集中存在离群值,箱线图可以帮助识别它们,因为离群值会显示为图表上的单个数据点。通过比较不同数据集的箱线图,可以快速了解它们的分布情况和中位数、四分位数的差异。
箱线图的结构如下:
方框从数据的第一个四分位数(Q1)延伸到第三个四分位(Q3),中间有一条线。边界从长方体延伸出四分位间距(IQR)的1.5倍。飞点是指那些超过胡须末端的点。参考https://en.wikipedia.org/wiki/Box_plot。
第一四分位数(Q1),也称为下四分位数,是指将一组数据从小到大排序后,第25%的数据所对应的数值。它是一组数据中的中位数的下方部分,通常用于描述数据集的较小部分的分布情况。具体来说,如果一个数据集有n个数据,那么第一四分位数可以通过以下公式计算得出:
Q1 = (n + 1) / 4
如果计算出的结果不是一个整数,那么需要将其四舍五入到最近的整数,然后将该位置上的数据作为第一四分位数。在某些情况下,也会使用一些其他的计算方法来计算Q1,比如基于线性插值的方法。第一四分位数是统计学中一个重要的概念,它可以帮助我们了解一组数据的整体分布情况,并且与中位数和第三四分位数一起用于绘制箱线图。
二、python函数
python中的matplotlib库提供了绘制箱线图的函数boxplot:
plt.boxplot(x, vert=None, widths=None, patch_artist=None, boxprops=None, meanline=None, showmeans=None, labels=None, flierprops=None, medianprops=None, meanprops=None)
- x:输入数据;
- vert:指定箱线图的方向(横向或纵向),True为纵向,False为横向;
- widths:指定箱体的宽度;
- patch_artist:填充箱体的颜色;
- boxprops&#