箱线图及其绘制

本文详细介绍了箱线图的绘制过程及其各个组成部分的意义,包括上四分位数、中位数、下四分位数以及异常值的定义。通过箱线图,可以直观展示数据的离散程度和异常值,并可用于判断数据分布的偏态和尾重。文中还提供了在SPSS、SigmaPlot、R等软件中绘制箱线图的示例,并展示了不同分布类型的箱线图特征。此外,文章给出了使用R的`ggplot2`包绘制箱线图的多种方式,包括颜色填充、坐标变换和异常值标记等,以帮助读者更灵活地创建箱线图。
摘要由CSDN通过智能技术生成

一,什么是箱线图?


箱线图在文献中经常见到,是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。


计算过程:


1 计算上四分位数(Q3),中位数,下四分位数(Q1)


2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1


3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。


4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。


5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。


6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。


7 为箱线图添加名称,数轴等。


在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便。

 

盒须图的优势:

1.可以直观地看出数据的离散程度;

2.直观明了地识别数据批中的异常值

3.利用箱线图判断数据批的偏态和尾重

   比较标准正态分布、不同自由度的t分布和非对称分布数据的箱线图的特征,可以发现:对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱线图的方盒关于中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的概率观察到异常值。以卡方分布作为非对称分布的例子进行分析,发现当卡方分布的自由度越小,异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较小值一侧,则分布呈现左偏态;;异常值集中在较大值一侧,则分布呈现右偏态。下表列出了几种分布的样本数据箱线图的特征(样本数据由SAS的随机数生成函数自动生成),验证了上述规律。这个规律揭示了数据批分布偏态和尾重的部分信息,尽管它们不能给出偏态和尾重程度的精确度量,但可作为我们粗略估计的依据。

 

二。绘制盒须图

如:我的数据源是这些:

 

类型
 
百分比
 
职务
 
会议
 
0.5606
 
部长
 
现场管理
 
0.0227
 
部长
 
日常管理
 
0.0758
 
部长
 
培训
 
0.0455
 
部长
 
其他
 
0.0303
  </
部长
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值