为何要测量统计数据的变异性及变异性评估方法

最新推荐文章于 2024-12-13 14:08:23 发布

weixin_42219192

最新推荐文章于 2024-12-13 14:08:23 发布

阅读量1.9k

点赞数 14

文章标签：算法人工智能

本文链接：https://blog.csdn.net/weixin_42219192/article/details/140465347

版权

变异性是一种汇总统计数据，表示数据集中的离散量。这些值分散程度如何？虽然集中趋势度量描述的是典型值，但变异性度量定义了数据点倾向于偏离中心多远。我们在值分布的背景下讨论变异性。低离散度表示数据点倾向于紧密聚集在中心周围。高离散度表示它们倾向于进一步偏离中心。

在统计学中，变异性、离散度和散布度是同义词，表示分布的宽度。正如有多种集中趋势测量方法一样，变异性测量方法也有很多种。在这篇博文中，您将了解为什么了解数据的变异性至关重要。然后，我将探讨最常见的变异性测量方法——范围、四分位距、方差和标准差。我将帮助您确定哪种方法最适合您的数据。

下面的两张图以图形方式显示了平均值相同但离散度较大和较小的分布的差异。左侧面板显示的分布紧密聚集在平均值附近，而右侧面板的分布则更加分散。

1、为什么理解变异性？

让我们退一步思考，首先了解一下为什么理解变异性如此重要。分析师经常使用平均值来总结总体或过程的中心。虽然平均值很重要，但人们往往对变异性反应更强烈。当分布的变异性较低时，数据集中的值更一致。然而，当变异性较高时，数据点更加不相似，极端值的可能性更大。因此，了解变异性有助于您掌握异常事件的可能性。

变异性度量是一种汇总统计数据，表示数据集中的离散量。这些值分散程度如何？虽然集中趋势度量描述的是典型值，但变异性度量定义了数据点倾向于偏离中心多远。我们在值分布的背景下讨论变异性。低离散度表示数据点倾向于紧密聚集在中心周围。高离散度表示它们倾向于进一步偏离中心。

图表显示了变异性较多和较少的两种分布。

为什么理解变异性很重要

在某些情况下，极端值可能会导致问题！您是否看到过气象学家在天气预报中显示一个地区极端高温和干旱，而另一个地区则出现洪水？将它们平均一下就好了！通常，我们对极端情况的不适感比对平均值的不适感更强。了解平均值附近的变化提供了关键信息。

变化无处不在。你每天上下班的时间都会有所不同。当你在餐馆反复点一道你最喜欢的菜时，每次点的菜都不会完全一样。从装配线上下来的零件可能看起来一模一样，但它们的长度和宽度却有微妙的不同。

这些都是现实生活中多变性的例子。一定程度的变化是不可避免的。但是，过多的不一致也会带来问题。如果你早上通勤的时间比平均通勤时间长得多，你就会迟到。如果餐厅的菜品与平常有很大不同，你可能根本不会喜欢它。而且，如果制造的零件超出规格太多，它就无法按预期发挥作用。

有些变化是不可避免的，但问题往往出现在极端情况下。变化性较大的分布比变化性较小的分布更频繁地产生异常大或异常小值的观测值。

变异性还可以帮助您评估样本的异质性。

a: 不同变异程度的示例

让我们来看看两家假设的披萨店。它们都宣传平均送货时间为 20 分钟。当我们饿的时候，它们听起来都一样好！然而，这种等价性可能具有欺骗性！要确定您在饥饿时应该从哪家餐厅订餐，我们需要分析它们的可变性。

假设我们研究他们的送货时间，计算每个地方的差异，并确定它们的差异是不同的。我们计算了两家餐厅的标准差——我们将在本文后面讨论这一指标。在及时将披萨送到顾客手中方面，这种差异有多大？

下图显示了送餐时间的分布并给出了答案。送餐时间变化较大的餐厅的分布曲线更宽。我在两个图中使用了相同的比例，以便您可以直观地比较这两个分布。

在这些图表中，我们认为 30 分钟或更长时间的等待是不可接受的。毕竟我们饿了！每个图表中的阴影区域代表送餐时间超过 30 分钟的比例。高变化率餐厅的送餐时间超过 30 分钟的比例接近 16%。另一方面，低变化率餐厅的送餐时间只有 2%。它们的平均送餐时间都是 20 分钟，但我知道当我饿的时候我会在哪里点餐！

正如这个例子所示，集中趋势并不能提供完整的信息。我们还需要了解分布中间的变异性，才能全面了解情况。现在，让我们继续讨论测量变异性的不同方法！

2、变异性评估方法

a: 范围

让我们从范围开始，因为它是最直接的可变性度量，计算起来也最容易理解。数据集的范围是该数据集中最大值与最小值之间的差值。例如，在下面的两个数据集中，数据集 1 的范围为 20 – 38 = 18，而数据集 2 的范围为 11 – 52 = 41。数据集 2 的范围更广，因此比数据集 1 具有更大的可变性。

虽然该范围很容易理解，但它仅基于数据集中的两个最极端值，因此很容易受到异常值的影响。如果其中一个数字异常高或低，即使它是非典型的，也会影响整个范围。

此外，数据集的大小也会影响范围。一般来说，您不太可能观察到极值。但是，随着样本量的增加，您获得这些极值的机会就更多了。因此，当您从同一总体中抽取随机样本时，范围往往会随着样本量的增加而增加。因此，仅当样本量相似时才使用范围来比较变异性。

b: 四分位距（IQR）……以及其他百分位数

四分位距是数据的中间一半。为了形象化它，想想将数据集一分为二的中位数。同样，你可以将数据分成四个季度。统计学家将这些季度称为四分位数，并从低到高分别表示为 Q1、Q2 和 Q3。最低四分位数 (Q1) 包含数据集中值最小的四分之一。上四分位数 (Q4) 包含数据集中值最高的四分之一。四分位距是位于上四分位数和下四分位数之间的数据的中间一半。换句话说，四分位距包括 Q1 和 Q3 之间 50% 的数据点。IQR 是下图中的红色区域。

四分位距是一种稳健的变异性度量，类似于中位数是一种稳健的集中趋势度量。这两种度量都不会受到异常值的显著影响，因为它们并不依赖于每个值。此外，四分位距和中位数一样，非常适合偏态分布。正如您将了解到的，当您有正态分布时，标准差会告诉您与平均值有特定距离的观测值的百分比。然而，这不适用于偏态分布，而 IQR 是一个很好的替代方案。

我将下面的数据集划分为四分位数。四分位距 (IQR) 从 Q2 的低端延伸到 Q3 的上限。对于此数据集，范围为 39 – 20 = 19。

使用其他百分位数

当数据分布不均时，我发现报告中位数和四分位距是一种非常好的组合。四分位距相当于 75 和 25 百分位数之间的区域（75 - 25 = 50% 的数据）。您还可以使用其他百分位数来确定不同比例的分布。例如，97.5 百分位数和 2.5 百分位数之间的范围涵盖了 95% 的数据。这些范围越宽，数据集的变异性就越高。

c:方差

方差是数值与平均值的平均平方差。与之前的变异性测量不同，方差通过将每个值与平均值进行比较来计算所有值。要计算此统计数据，您需要计算数据点与平均值之间的一组平方差，将它们相加，然后除以观测值的数量。因此，这就是平均平方差。

方差有两种公式，具体取决于您是计算整个总体的方差还是使用样本来估计总体方差。公式如下，然后我通过表格中的示例来帮助您理解。

总体差异

整个总体的方差公式如下：

等式中，σ 2是方差的总体参数，μ 是总体均值的参数，N 是数据点的数量，应该包括整个总体。

统计学家将方差公式的分子部分称为平方和。

样本方差

要使用样本估计总体的方差，请使用以下公式。使用上一个带有样本数据的公式往往会低估变异性。由于通常不可能测量整个总体，因此统计学家更频繁地使用样本方差公式。

等式中，s 2为样本方差，M 为样本均值。分母中的 N-1 可校正样本低估总体方差的趋势。

计算样本方差的示例

我将通过一个示例来说明如何使用公式对下表中包含 17 个观测值的数据集进行抽样。括号中的数字表示相应的表格列号。该过程包括取每个观测值 (1)，减去样本平均值 (2) 以计算差值 (3)，然后计算该差值的平方 (4)。然后，我将表格底部的平方差相加。最后，我将总和除以 16，因为我使用的是包含 17 个观测值的样本方差方程(17 - 1 = 16)。此数据集的方差为 201

由于计算使用的是平方差，因此方差的单位是平方，而不是数据的原始单位。虽然方差值越高，表示变异性越大，但具体值没有直观的解释。尽管存在这种限制，但各种统计测试在计算中使用方差。。

虽然方差本身很难解释，但标准差解决了这个问题！

d: 标准差

标准差是每个数据点与平均值之间的标准差或典型差。当数据集中的值分布得更紧密时，标准差较小。另一方面，当值分布得更分散时，标准差会更大，因为标准距离更大。

方便的是，标准差使用数据的原始单位，这使得解释更容易。因此，标准差是最广泛使用的变异性度量。例如，在披萨外送示例中，标准差 5 表示典型送餐时间与平均值相差 5 分钟。它通常与平均值一起报告：20 分钟（sd 5）。

标准差就是方差的平方根。回想一下，方差是以平方为单位的。因此，平方根将值返回到自然单位。作为总体参数的标准差符号为 σ，而 s 表示其为样本估计值。要计算标准差，请按上图所示计算方差，然后对其取平方根。瞧！您得到了标准差！

在方差部分，我们在表中计算出方差为 201。

标准差与平均绝对差类似。两者都使用原始数据单位，并将数据值与平均值进行比较以评估变异性。但是，它们存在差异。

人们经常将标准差与平均值的标准误差混淆。这两个指标都用于评估变异性，但它们的目的却截然不同。

e: 正态分布标准差的经验法则

当您拥有正态分布的数据或近似正态分布的数据时，标准差就变得特别有价值。您可以使用它来确定落在与平均值的指定标准差范围内的值的比例。例如，在正态分布中，68% 的值将落在与平均值的 +/- 1 个标准差范围内。此属性是经验法则的一部分。此规则描述了钟形曲线中落在与平均值的特定标准差范围内的数据的百分比。