方差计算时分母为什么是n-1

最新推荐文章于 2024-08-11 01:20:43 发布

刘乐去哪儿了

最新推荐文章于 2024-08-11 01:20:43 发布

阅读量2.1k

点赞数 16

文章标签：概率论线性代数

本文链接：https://blog.csdn.net/qq_37423490/article/details/138118264

版权

计算方差时，分母使用 $n$ 或 $n - 1$ 主要是针对样本方差的情况，它们分别对应两种不同的处理方式：

1 分母为 $n$ ：

此时计算的是未修正的样本方差，即直接使用样本数据来估计总体方差时，使用公式：
$S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$
未修正的样本方差在统计学上被认为是有偏估计（biased estimator），因为它在大多数情况下会倾向于低估总体方差的实际值。当样本量较小或者总体方差未知时，这种偏差尤为明显。

2 分母为 $n - 1$ ：

此时计算的是修正的样本方差（或称无偏样本方差），即为了消除上述偏差，使样本方差成为总体方差的无偏估计，使用公式：
$S_{unbiased}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$
修正后的样本方差通过除以 $n - 1$ 而不是 $n$ ，使得当从总体中抽取一个样本时，这个样本方差的期望值恰好等于总体方差 $\sigma^2$ 。也就是说，虽然每次抽样得到的样本方差会有所不同，但其平均值（即多次抽样后样本方差的期望值）将准确反映总体方差，这就是所谓的“无偏性”

原因分析：

有偏估计的原因：

在计算样本方差时，我们使用样本均值 $\overline x$ 替代了未知的总体均值 $\mu$ 。由于样本均值是基于同一组样本数据计算得出的，它与样本数据之间存在关联性，导致在计算样本方差时，样本数据与样本均值之差的平方和的总和被系统性地低估。修正样本方差的目的就是消除这种因使用样本均值而导致的偏差，使其成为总体方差的无偏估计。

无偏估计的原理：

采用 $n - 1$ 作为分母的数学依据源于Bessel’s correction（贝塞尔校正）。贝塞尔校正是统计学中用来调整估计量，使之成为无偏估计的一种常用方法。
当样本均值 $\overline x$ 用于代替总体均值 $\mu$ 时，样本方差的计算引入了额外的不确定性。由于样本均值是由样本数据计算出来的，它与样本数据之间存在一种“共线性”关系。这种关系使得在计算样本方差时，实际使用的自由度比样本量少一个。
通过除以 $n - 1$ 而不是 $n$ ，相当于对原有的样本方差进行了扩大，从而补偿了由于使用样本均值而产生的偏差。这样得到的修正样本方差的期望值就等于总体方差，实现了无偏估计。

综上所述，计算方差时分母选择 $n$ 或 $n - 1$ 的主要区别在于是否对样本方差进行修正以获得无偏估计。在实际应用中，尤其是当样本量较小或需要对总体方差进行精确估计时，通常推荐使用分母为 $n - 1$ 的修正样本方差公式。而在某些特殊情况下，如已知总体分布且样本量足够大时，直接使用分母为 $n$ 的未修正样本方差也可能是合理的，但这需要基于特定的统计推断背景和目的来决定。