箱线图时一种针对连续型变量的统计图。通常用作比较。
箱子中间的一条线,是数据的中位数,代表了数据的平均水平。
箱子的上限和下限,分别是数据的上四分位数和下四分位数,意味着箱子包含50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。
箱子的上方和下方各有一条横线,在没有异常值(冒出去的点)时,表示数据的最大值或者最小值。
需要注意的是,虽然箱线图也能看分布的形态,但人们更习惯从直方图去解读分布的形态,而非箱线图。
有时箱线图的箱子被压得很扁,甚至只剩下一条线,同时还存在很多刺眼的异常值,这种情况出现有两个常见的原因:(1)样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出这些异常(2)样本数据特别少,数据少就有可能出现各种诡异的情况,导致图很不美观。
解决办法
(1)如果数据取值为正数,那么可以尝试做对数变换;(2)如果不想变换,那么建议不画箱线图。
箱线图的用法是,配合定性变量画分组箱线图,用作比较。如果只有一个定量变量,很少用一个箱线图去展示其分布,更多选择直方图。箱线图的有效使用方法是作比较。
作比较的时候,可以从(1)平均水平(中位数)(2)波动程度(箱子高度)(3)异常值(冒出的点)三个方面进行比较。
来源:
数据思维:从数据分析到商业价值(王汉生) 2017年9月出版