计算方差时,分母使用 n n n 或 n − 1 n-1 n−1 主要是针对样本方差的情况,它们分别对应两种不同的处理方式:
1 分母为 n n n:
- 此时计算的是
未修正的样本方差
,即直接使用样本数据来估计总体方差时,使用公式:
S 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 S2=n1i=1∑n(xi−xˉ)2 未修正
的样本方差在统计学上被认为是有偏估计
(biased estimator),因为它在大多数情况下会倾向于低估总体方差
的实际值。当样本量较小或者总体方差未知时,这种偏差尤为明显。
2 分母为 n − 1 n-1 n−1:
- 此时计算的是
修正
的样本方差(或称无偏
样本方差),即为了消除上述偏差,使样本方差成为总体方差的无偏估计
,使用公式:
S u n b i a s e d 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S_{unbiased}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 Sunbiased2=n−11i=1∑n(xi−xˉ)2 - 修正后的样本方差通过除以
n
−
1
n-1
n−1而不是
n
n
n,使得当从总体中抽取一个样本时,这个样本方差的
期望
值恰好等于总体方差 σ 2 \sigma^2 σ2。也就是说,虽然每次抽样得到的样本方差会有所不同,但其平均值(即多次抽样后样本方差的期望值)将准确反映总体方差,这就是所谓的“无偏性
”
原因分析:
有偏估计的原因:
在计算样本方差时,我们使用样本均值
x
‾
\overline x
x 替代了未知的总体均值
μ
\mu
μ。由于样本均值是基于同一组样本数据计算得出的,它与样本数据之间存在关联性
,导致在计算样本方差时,样本数据与样本均值之差的平方和的总和被系统性地低估。修正样本方差的目的就是消除这种因使用样本均值而导致的偏差,使其成为总体方差的无偏估计。
无偏估计的原理:
- 采用 n − 1 n-1 n−1 作为分母的数学依据源于Bessel’s correction(贝塞尔校正)。贝塞尔校正是统计学中用来调整估计量,使之成为无偏估计的一种常用方法。
- 当样本均值
x
‾
\overline x
x 用于
代替
总体均值 μ \mu μ 时,样本方差的计算引入了额外的不确定性
。由于样本均值是由样本数据计算出来的,它与样本数据之间存在一种“共线性
”关系。这种关系使得在计算样本方差时,实际使用的自由度比样本量少一个。 - 通过除以 n − 1 n-1 n−1 而不是 n n n,相当于对原有的样本方差进行了扩大,从而补偿了由于使用样本均值而产生的偏差。这样得到的修正样本方差的期望值就等于总体方差,实现了无偏估计。
综上所述,计算方差时分母选择 n n n 或 n − 1 n-1 n−1 的主要区别在于是否对样本方差进行修正以获得无偏估计。在实际应用中,尤其是当样本量较小或需要对总体方差进行精确估计时,通常推荐使用分母为 n − 1 n-1 n−1 的修正样本方差公式。而在某些特殊情况下,如已知总体分布且样本量足够大时,直接使用分母为 n n n 的未修正样本方差也可能是合理的,但这需要基于特定的统计推断背景和目的来决定。