为什么样本方差的分母是n-1

最新推荐文章于 2024-06-27 01:55:56 发布

gemingxuan

最新推荐文章于 2024-06-27 01:55:56 发布

阅读量1k

点赞数

文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/gemingxuan/article/details/135941406

版权

文章解释了为何样本方差的分母采用n-1，而不是n，是因为样本均值的计算已使用n个数，第n个数可由前n-1个数确定，导致n-1个独立观测值决定方差。随着样本量增大，样本方差趋近于总体方差，n-1确保了无偏估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么样本方差的分母是n-1？

最简单的解释，因为计算均值已经用了n个数的平均来做估计，因此在求方差时，只有n-1个数和均值信息是不相关的。第n个数可以由前n-1个数和均值唯一确定，实际上没有包含新的可用信息。因此在计算方差时，要除以n-1，而非n。

更严格的证明如下。

设总体的均值为 $\mu$ ,标准差为 $\sigma$ ，均是未知的。对于独立同分布的n个样本 $x_1,x_2,...,x_n$ ，根据均值和方差的定义，我们有：
$\begin{align} &E(x_i)=\mu,~\forall i=1,...,n \\ &E\left[(x_i-\mu)^2\right]=Var(x_i)=\sigma^2,~\forall i=1,...,n \end{align}$
为了估计总体的均值和方差，定义如下两个统计量:

样本均值

$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$

样本方差：

$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$

样本均值和方差均是统计量，也是随机变量。样本方差表示样本中变量到样本均值的平均距离。

对于样本均值 $\bar{x}$ ，其期望满足：

$E(\bar{x})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\mu$

样本均值的期望等于总体均值，因而是一个无偏估计，其方差：
$\begin{align} Var(\bar{x})&=E(\bar{x}-\mu)^2=Var( \frac{1}{n}\sum_{i=1}^{n}x_i) \\ &=\frac{1}{n^2}\sum_{i=1}^{n}Var(x_i) \\ &=\frac{\sigma^2}{n} \end{align}$
可见，对样本均值估计的方差随着样本数的增加而减小，样本越多，样本均值越是集中在总体均值附近。

现在再看样本的方差，假设前面系数的分母是n-1，而不是n，则有：
$\begin{align} &\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}\large(x_i-\mu+\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\mu-\bar{x})+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2-(\mu-\bar{x})^2 \end{align}$
它的期望为：
$\begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]-E\left[(\mu-\bar{x})^2\right] \\ &=\sigma^2-\frac{1}{n}\sigma^2 \\ &=\frac{n-1}{n}\sigma^2 \end{align}$
可见，分母为n时，样本方差总是比总体方差要小，由于低估了方差，因此需要将其放大一点，：
$\begin{align} &E(S^2)=\frac{n}{n-1}E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=\sigma^2 \end{align}$
乘以放大系数 $\frac{n}{n-1}$ ，样本方差公式里系数的分母变成n-1，此时对总体方差的估计就是无偏的。

可以看到，样本方差等于总体方差减去样本均值的方差，如果用样本均值估计总体均值，对总体方差的估计是有偏差的，偏差就是样本均值的方差。随着样本总量n的增加，样本方差S会越来越接近总体方差 $\sigma$ 。当n很大时，用n或者n-1差别并不大，两者最终都会收敛到真实的总体方差。

需要注意的是，这里假设总体的均值和方差均是未知的。如果总体均值已知，即 $\bar{x}=\mu$ ，则有：
$\begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] =E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]=\sigma^2 \end{align}$
这是一个无偏估计。此时，计算样本方差的分母就是n，而不再是n-1，符合我们的直觉。