箱线图的理解

一、箱线图概念

      箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 
这里写图片描述

      计算过程:

(1)计算上四分位数(Q3),中位数,下四分位数(Q1) 
(2)计算上四分位数和下四分位数之间的差值,即
四分位数差(IQR,interquartile range)Q3-Q1 
(3)绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。 
(4)大于 上四分位数   1.5倍
四分位数差  的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。 
         
(5)异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 
(6)极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。 
(7)为箱线图添加名称,数轴等

二、四分位数的计算

      分位数根据其将数列等分的形式不同可以分为中位数,四分位数,十分位数、百分位数等等。四分位数作为分位数的一种形式,在统计中有着十分重要的意义和作用,而大多数的统计学原理教材只介绍其基本含义,对其具体计算,尤其是由组距数列计算都不作介绍,成为统计学原理教材中的空白。那么,如何根据数列计算四分位数呢?一般来讲,视资料是否分组而定。

1、根据未分组的资料计算四分位数

第一步:确定四分位数的位置 
四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下分位数、中分位数和上分位数分别为这里写图片描述,则:这里写图片描述的位置可由下述公式确定:

这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述 
式中n表示资料的项数

第二步:根据第一步所确定的四分位数的位置,确定其相应的四分位数。 
例1:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置分别为: 
这里写图片描述=这里写图片描述=(11+1)/4=3 
这里写图片描述=这里写图片描述=(11+1)/2=6 
这里写图片描述=这里写图片描述=3*(11+1)/4=9 
即变量数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位 数和上四分位数。即: 
Q1 =13.8公斤、Q2=14.6公斤、Q3=15.2公斤 
上例中(n+1)恰好为4的倍数,所以确定四分数较简单,如果(n+1)不为4的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于1。 
例2:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为: 
这里写图片描述=这里写图片描述=(10+1)/4=2.75 
这里写图片描述=这里写图片描述=(10+1)/2=5.5 
这里写图片描述=这里写图片描述=3*(10+1)/4=8.25 
即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位 数、中位数和上四分位数。即: 
这里写图片描述=0.25 第二项+0.75 第三项=13.75 
这里写图片描述=0.5 第五项+0.5 第六项=14.3 
这里写图片描述=0.75 第八项+0.25 第九项=15.05 
在实际资料中,由于标志值序列中的相邻标志值往往是相同的,因而不一定要通过计算才能得到有关的四分位数。

2、由组距式数列确定四分位数

第一步,向上或向下累计次数. 
第二步,根据累计次数确定四分位数的位置. 
(1)、当采用向上累计次数的资料确定四分位数时,四分位数位置的公式是:

这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述

(2)、当采用向下累计次数的资料确定四分位数时,四分位数位置的公式是: 
这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述 
这里写图片描述=这里写图片描述

第三步,根据四分位数的位置算出各四分位数. 
(1)、当累计次数是向上累计时,按下限公式计算各四分位数. 
这里写图片描述 
这里写图片描述 
这里写图片描述

(2)、当累计次数是向下累计时,按上限公式计算各四分位数. 
这里写图片描述 
这里写图片描述 
这里写图片描述

例3:某企业职工按月工资的分组资料如下:

按月工资分组职工人数向上累计职工人数向下累计职工人数
600以下2323566
600–700120143543
700–800150293423
800–900135428273
900–100095523138
1000以上4356643
合 计566

根据上述资料确定某企业职工的月工资的三个四分位数如下: 
(1)、采用向上累计职工人数的资料得月工资四分位数的位置为: 
(2)、采用向下累计职工人数的资料得月工资四分位数的位置为:

3、异常值

这里写图片描述, 这里写图片描述(中位数) ,这里写图片描述

四分位数全距:IQR=这里写图片描述-这里写图片描述

限制线位置:这里写图片描述-1.5IQR~~这里写图片描述+1.5IQR

异常值:限制线以外的数据全部为异常值

三、画图

这里写图片描述

  • 57
    点赞
  • 218
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
### 回答1: matplotlib是一个常用的数据可视化库,可以用来绘制箱线图(boxplot)。箱线图可以通过可视化数据的分布情况来展示数据的统计特征,包括中位数、上下四分位数、最大值和最小值等。 绘制箱线图需要导入matplotlib库中的pyplot模块,并使用该模块中的boxplot函数。该函数的参数包括数据集、是否显示异常值、箱线图的颜色和样式等。 首先,需要准备要绘制的数据集。可以使用numpy库生成随机数作为样本数据。 接下来,使用boxplot函数绘制箱线图。将数据集作为参数传入函数中即可。如果想要显示异常值,可以设置showfliers参数为True。可以根据需要设置箱线图的颜色、线条样式等。 最后,调用show函数显示绘制的箱线图。可以在图像中看到箱线图的各个统计特征,以及可能存在的异常值。 绘制箱线图的过程较为简单,可以根据需要对数据进行整理和处理,以满足展示和分析的需求。matplotlib提供了丰富的功能和参数设置,可以根据个人的需求来进行图像的美化和调整。 总之,matplotlib箱线图是一种常用的数据可视化方式,可以直观地展示数据的统计特征,帮助我们更好地理解和分析数据。 ### 回答2: matplotlib是一个用于绘制数据可视化图表的Python库,其中的箱线图(boxplot)是一种用于展示数据分布情况的图表类型。 箱线图由五个统计量组成,包括最小值、第一四分位数(下四分位数)、中位数、第三四分位数(上四分位数)和最大值。通过箱线图,我们可以直观地了解数据的集中趋势、离散程度以及异常值的存在情况。 在matplotlib中,我们可以使用`boxplot()`函数绘制箱线图。函数的参数中,我们需要传入一个包含数据的列表或数组,并通过`labels`参数指定每个箱线图的名称。此外,我们还可以通过`showfliers`参数来控制是否显示异常值,默认值为True。 在绘制箱线图之前,我们需要确保matplotlib库已经安装并导入。接下来,我们可以使用以下代码绘制一个简单的箱线图: ```python import matplotlib.pyplot as plt data = [5, 10, 12, 15, 20, 22, 28, 30, 35, 40, 42, 45, 50] plt.boxplot(data, labels=["Data"]) plt.show() ``` 运行以上代码,我们将得到一个名为"Data"的单个箱线图,其中的箱体代表了数据的四分位数范围,中位线代表了数据的中位数,而箱线图上方和下方的线段分别代表了上下四分位数以及最大值和最小值。 通过matplotlib的箱线图,我们可以通过直观的图表形式来解读数据的集中趋势、离散程度以及异常值的存在情况,从而更好地分析和理解数据的分布情况。 ### 回答3: matplotlib是一个用于绘制图表的Python库,其中包含了绘制箱线图的函数。箱线图是一种常用的统计图表,用于展示一组数据的分布情况。 在matplotlib中绘制箱线图时,可以使用boxplot()函数。该函数接受一个或多个一维数组作为输入数据,每个数组对应一个箱线图箱线图通常由五个要素组成:最小值、最大值、中位数、上四分位数和下四分位数。最小值和最大值分别由数据的最小值和最大值确定。中位数表示数据的中间值,即将数据从小到大排列后位于中间位置的数值。上四分位数是指将数据分为四等分后处于第三等分位置上的数值,下四分位数是指处于第一等分位置上的数值。 箱线图的箱体由上四分位数和下四分位数之间的数据范围确定,箱体中的中位线表示中位数。箱线图中通常还包括上边缘和下边缘,它们表示数据的最大值和最小值。 绘制箱线图的主要步骤如下: 1. 导入matplotlib库和相关模块。 2. 创建一个画布和坐标系对象。 3. 准备要绘制的数据。 4. 调用boxplot()函数,传入数据对象。 5. 可选地设置标题、坐标轴标签等图表属性。 6. 调用show()函数显示图表。 使用matplotlib绘制箱线图可以直观地了解数据的分布情况,对于比较不同数据集之间的差异或检测异常值有很大帮助。箱线图在数据分析、统计学研究和决策支持等领域广泛应用。通过掌握matplotlib库中箱线图的绘制方法,可以为数据可视化和分析提供强大的工具。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值