什么是盒须图
盒须图(Box Plot)也称为箱形图、盒式图、盒状图、箱线图等,是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数等提供关于数据集的统计指标、异常值和数据的分散程度等信息。
盒须图通常包含以下几个部分:
- 上边缘(Upper Whisker):代表数据集中最大值的位置,如果数据中存在异常值,则该值可能不是最大值。
- 上四分位数(Upper Quartile):也称为第三四分位数(Third Quartile),它将数据集按升序排序后,将数据划分为四个等分,上四分位数处于第三个部分。
- 中位数(Median):也称为第二四分位数(Second Quartile),将数据按升序排序后,中位数处于整个数据的中间位置。
- 下四分位数(Lower Quartile):也称为第一四分位数(First Quartile),将数据按升序排序后,将数据划分为四个等分,下四分位数处于第一个部分。
- 下边缘(Lower Whisker):代表数据集中最小值的位置,如果数据中存在异常值,则该值可能不是最小值。
- 异常值(Outliers):超过1.5倍四分位距的数据点,被认为是异常值,通常在图表中以离群点的形式标记出来。
- 盒子/盒体(Box):代表数据集的四分位距,即上四分位数和下四分位数之间的距离。
- 平均值(Mean):有时也会在盒须图中展示数据集的平均值。
盒须图能够直观地展示数据的分布特征,包括数据的中位数、分散程度(通过四分位距和盒子的长度)、异常值等。它特别适合用于比较不同组别数据的统计量,并可用于发现数据中的异常情况。
盒须图的特性及应用场景
盒须图的特性
盒须图具有以下几个特性:
-
描述性:盒须图提供了对数据集的描述性统计信息,包括中位数、四分位数、最小值、最大值和异常值等。这些统计量可以帮助我们了解数据的集中趋势、分布范围和异常情况。
-
分布概览:盒须图通过盒子的长度和位置来描述数据的分布情况。盒子的长度表示数据的分散程度,越长表示数据的分散程度越大;盒子的位置表示数据的中位数,可以用于判断数据的集中趋势。
-
异常值检测:盒须图可以识别和标记数据集中的异常值。异常值通常被定义为超过1.5倍四分位距的数据点,通过盒须图我们可以直观地看到这些异常值,并对其进行进一步的分析和处理。
-
组间比较:盒须图可以用于比较不同组别或类别之间的统计量。通过在同一图表中展示多个盒子