使用样本均值来代替总体均值会使得方差的估计偏低。
方差的定义是数据点到均值的平方差的平均值。对于一个总体(全体数据),其方差定义为:
\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 \]
其中 \( \mu \) 是总体均值。
而在样本中,我们并不知道总体均值 \( \mu \),只能用样本均值 \( \bar{x} \) 来代替:
\[ s^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 \]
当我们使用样本均值 \( \bar{x} \) 来代替总体均值 \( \mu \) 时,样本中的数据点和样本均值之间的差异会比与总体均值之间的差异更小。这是因为样本均值本身就是样本数据的平均值,所以它和样本数据之间的距离(差异)较小。这会导致计算出的平方差总和偏小,从而导致方差的估计偏小。
1、样本方差公式(有偏估计):
\[ s^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 \]
2、样本方差公式(无偏估计):
\[ s^2_{\text{unbiased}} = \frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2 \]
当使用样本均值 \( \bar{x} \) 计算方差时,实际上得到的是总体方差的一个有偏估计。通过将分母从 \( N \) 改为 \( N-1 \),可以纠正这个偏差,得到总体方差的无偏估计。