箱线图概念和使用介绍

箱线图时一种针对连续型变量的统计图。通常用作比较。

箱子中间的一条线,是数据的中位数,代表了数据的平均水平。

箱子的上限和下限,分别是数据的上四分位数和下四分位数,意味着箱子包含50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。

箱子的上方和下方各有一条横线,在没有异常值(冒出去的点)时,表示数据的最大值或者最小值。

需要注意的是,虽然箱线图也能看分布的形态,但人们更习惯从直方图去解读分布的形态,而非箱线图。

有时箱线图的箱子被压得很扁,甚至只剩下一条线,同时还存在很多刺眼的异常值,这种情况出现有两个常见的原因:(1)样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出这些异常(2)样本数据特别少,数据少就有可能出现各种诡异的情况,导致图很不美观。

解决办法

(1)如果数据取值为正数,那么可以尝试做对数变换;(2)如果不想变换,那么建议不画箱线图。

箱线图的用法是,配合定性变量画分组箱线图,用作比较。如果只有一个定量变量,很少用一个箱线图去展示其分布,更多选择直方图。箱线图的有效使用方法是作比较。

作比较的时候,可以从(1)平均水平(中位数)(2)波动程度(箱子高度)(3)异常值(冒出的点)三个方面进行比较。

来源:

数据思维:从数据分析到商业价值(王汉生) 2017年9月出版

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值