箱线图的四分位怎么计算_Minitab图形 | 箱线图—3解释结果

解释箱线图的主要结果

请完成以下步骤来解释箱线图。

关于本主题

  • 步骤 1:评估主要特征
  • 步骤 2:查找非正常或异常数据的指示符
  • 步骤 3:评估和比较组

步骤 1:评估主要特征 检查分布的中心和散布。评估样本数量对箱线图外观的影响。

中心和散布 检查以下元素可深入了解样本数据的中心和散布。

中位数

中位数由箱子中的线表示。中位数常用于度量数据的中心。一半观测值小于等于该值,而另一半则大于等于该值。

四分位间距框

四分位间距框表示中间 50% 的数据。它显示第一个四分位数与第三个四分位数之间的距离 (Q3-Q1)。

须从箱子的任一侧延伸。须表示下 25% 和上 25% 的数据值的范围,不包括异常值。 将指针放在箱线图上以显示包含这些统计量的工具提示。例如,静息心率的此箱线图显示心率的中位数为 71。大多数主体的心率介于 64 和 80 之间,但也有一些主体的心率低至 48 或高至 100。

a030a7bac7353574a2bf4ab67d2f5f26.png

调查此箱线图上任何奇怪的或不想要的特征。例如,箱线图上可能显示木板的长度中位数远小于目标长度 8 英尺。 注意 由于箱线图的四分位数是计算值,因此它们可能不是数据集内的实际观测值。有关如何解释四分位数的更多信息,请转到什么是四分位数?。有关如何计算四分位数的具体信息,请转到图形汇总的方法和公式。

样本数量 (n) 样本数量可能会影响图形的外观。 例如,尽管这两个箱线图似乎有相当大的差异,但这两个箱线图都是使用从同一个总体中随机选择的数据样本创建的。

a030dc912a6c0c4de79b78f0d5b2c41a.png

n = 15

91c85cdf1b0d46106c3de563b9f6f831.png

n = 500

当样本数量最少为 20 时,箱线图效果最佳。如果样本数量太小,箱线图显示的四分位数和异常值可能没有意义。如果样本数量小于 20,请考虑改用单值图。

步骤 2:查找非正常或异常数据的指示符 偏斜数据表明数据可能不正常。异常值可能表明数据中存在其他情况。

偏斜数据 当数据偏斜时,大多数数据位于图形的高或低侧。偏斜表明数据可能未呈正态分布。 这些箱线图说明的是偏斜数据。带右偏斜数据的箱线图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的箱线图显示失效时间数据。少数几个项立即失败,更多的项会在随后失败。

50699a40ce706908307bd9d6b78331b5.png

右偏斜

5d5c08e9a436edbf95d37ee12c2069df.png

左偏斜

如果已知数据本身未偏斜,请调查可能的原因。如果您希望分析严重偏斜的数据,请阅读该分析的“数据注意事项”主题,以确保您可以使用非正常数据。

异常值 异常值是远离其他数据值的数据值,可能会显著影响您的结果。通常情况下,在箱线图上最容易识别异常值 在箱线图上,异常值用星号 (*) 标识。

4ab5330f6d281184608ce5b59de82b2b.png

提示 将指针放在异常值上以标识数据点。 尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。

步骤 3:评估和比较组 如果箱线图含组,请评估和比较组的中心和散布。

中心 查找组中心之间的差异。 例如,此箱线图显示四个供应商生产的电线的厚度。一些组的厚度中位数似乎不同。

0d5fb956e55d4eb6aa3103a8394ed527.png

散布 查找组散布之间的差异。 例如,此箱线图显示四条生产线生产的麦片盒的填充重量。各组麦片盒的重量中位数比较相似,但某些组的重量比其他组的变异性大。

2c669a7d20d0bce968a6cd8cecc8fc28.png

要确定散布(方差)之间的差异在统计意义上是否显著,请执行以下操作之一:

  • 如果只有两个组,请使用双方差检验。
  • 如果有三个或多个组,请使用相等方差的检验。

什么是四分位数?

四分位数是将数据样本分成四个相等部分的值。利用四分位数,可以快速评估数据集的散布和中心趋势 – 这是了解数据的重要前期步骤。

08fce001470259d9e706722218503e82.png

例如,对于以下数据:7、9、16、36、39、45、45、46、48、51

  • Q1 = 14.25
  • Q2(中位数)= 42
  • Q3 = 46.50
  • 四分位间距 = 14.25 - 46.50,或 32.25

注意 四分位数是计算值,而不是数据中的观测值。通常,需要在两个观测值之间插值才能正确计算出四分位数。

由于不受极端观测值的的影响,因此与均值和标准差相比,中位数和四分位间距是对高度偏斜数据的中心趋势和散布程度的更好度量。

箱线图上的“向里生长”或“反转”须

默认情况下,箱子的底部位于第一个四分位数 (Q1) 值处,顶部位于第三个四分位数 (Q3) 值处。须是从箱子的顶部和底部延伸到相邻值的线。相邻的值是仍位于以下限值所定义的区域内部的最低和最高观测值:

  • 下限:Q1 - 1.5 (Q3 - Q1)
  • 上限:Q3 + 1.5 (Q3 - Q1)

但是,上面的相邻值可能会小于 Q3,这将从 Q3 向箱子内部绘制须。下面的相邻值还可能会大于 Q1,这将从 Q1 向箱子内部绘制须。

207ee36ffd618e91763cbb7cf1da4656.png

对于次箱线图:

  • Q1 = 1382
  • Q3 = 1792
  • 下限 = 1382 - 1.5*(1792-1382) = 767
  • 上限 = 1792 + 1.5*(1792-1382) = 2407

此范围内的最小观测值是 1200,最大观测值是 1563。下面的须将 Q1=1382 连接到 Q1=1200,这会延伸到箱子外部。上面的须将 Q3=1792 连接到 Q3=1536,这会延伸到箱子内部。

注意 如果您选择针对箱子端点使用折叶点而不是四分位数,则须永远不会“向里生长”。

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页