箱线图及其绘制

一,什么是箱线图?


箱线图在文献中经常见到,是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。


计算过程:


1 计算上四分位数(Q3),中位数,下四分位数(Q1)


2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1


3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。


4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。


5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。


6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。


7 为箱线图添加名称,数轴等。


在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便。

 

盒须图的优势:

1.可以直观地看出数据的离散程度;

2.直观明了地识别数据批中的异常值

3.利用箱线图判断数据批的偏态和尾重

   比较标准正态分布、不同自由度的t分布和非对称分布数据的箱线图的特征,可以发现:对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱线图的方盒关于中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的概率观察到异常值。以卡方分布作为非对称分布的例子进行分析,发现当卡方分布的自由度越小,异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较小值一侧,则分布呈现左偏态;;异常值集中在较大值一侧,则分布呈现右偏态。下表列出了几种分布的样本数据箱线图的特征(样本数据由SAS的随机数生成函数自动生成),验证了上述规律。这个规律揭示了数据批分布偏态和尾重的部分信息,尽管它们不能给出偏态和尾重程度的精确度量,但可作为我们粗略估计的依据。

 

二。绘制盒须图

如:我的数据源是这些:

 

类型
 
百分比
 
职务
 
会议
 
0.5606
 
部长
 
现场管理
 
0.0227
 
部长
 
日常管理
 
0.0758
 
部长
 
培训
 
0.0455
 
部长
 
其他
 
0.0303
  </
部长
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Matplotlib也可以用来绘制箱线图箱线图用于显示数据的分布情况,包括中位数、四分位数、最小值、最大值和离群值等信息。 Matplotlib中用于绘制箱线图的函数是`plt.boxplot()`。其主要参数如下: - `x`:表示需要绘制箱线图的数据,可以是一个列表或数组。 - `labels`:表示每个箱线图的标签,用于图例的显示。 - `notch`:表示箱线图是否呈现凹口形状。 - `whis`:表示箱线图中的须的长度,可以用数字或百分比来表示。 - `sym`:表示离群值的样式,可以用字符串或符号来表示。 - `vert`:表示箱线图的方向,如果为True,表示垂直方向;如果为False,表示水平方向。 - `showfliers`:表示是否显示离群值。 - `patch_artist`:表示是否使用填充色绘制箱体。 - `boxprops`:表示箱体的属性,包括颜色、填充色和边框等。 - `medianprops`:表示中位数线的属性。 - `meanprops`:表示均值线的属性。 - `flierprops`:表示离群值的属性。 下面是一个绘制箱线图的示例代码: ```python import matplotlib.pyplot as plt import numpy as np # 生成随机数据 np.random.seed(10) data = np.random.normal(size=(100, 4), loc=0, scale=1) # 绘制箱线图 plt.boxplot(data, labels=['A', 'B', 'C', 'D'], notch=True, whis=1.5, sym='o', vert=True, showfliers=True, patch_artist=True, boxprops={'color': 'blue', 'facecolor': 'lightblue', 'linewidth': 2}, medianprops={'color': 'red', 'linewidth': 2}, meanprops={'color': 'green', 'linewidth': 2}, flierprops={'marker': 'o', 'markerfacecolor': 'red', 'markersize': 8}) # 设置图表标题和坐标轴标签 plt.title('Box Plot') plt.xlabel('X') plt.ylabel('Y') # 显示图表 plt.show() ``` 该示例代码中,生成了随机数据,然后使用`plt.boxplot()`函数绘制箱线图,设置了箱线图的标签、凹口形状、须的长度、离群值样式、方向、是否显示离群值、是否使用填充色绘制箱体和各种属性等参数。最后设置了图表标题和坐标轴标签,并显示了图表。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值