有偏估计 and 无偏估计

最新推荐文章于 2023-10-13 23:12:19 发布

梁小憨憨

最新推荐文章于 2023-10-13 23:12:19 发布

阅读量3.3k

点赞数 23

分类专栏：深度学习文章标签：机器学习深度学习统计学

本文链接：https://blog.csdn.net/qq_41990294/article/details/109647197

版权

深度学习专栏收录该内容

68 篇文章

订阅专栏

本文介绍了有偏估计与无偏估计的概念，特别是在计算样本方差时的应用。通过实例解释为什么样本方差的分母是n-1而不是n，以及如何从有偏估计转换为无偏估计。文章详细探讨了使用样本均值替代总体均值后，分母变化的原因，展示了样本方差S2作为总体方差σ2的无偏估计的数学推导过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇为《深度学习》系列博客的第六篇，该系列博客主要记录深度学习相关知识的学习过程和自己的理解，方便以后查阅。

看PCA时遇到方差计算公式分母是n-1而不是n，于是查阅资料就发现有偏估计和无偏估计，并且可以把有偏估计转换为无偏估计，这里做一下笔记。

有偏估计 and 无偏估计

均值 - 无偏估计
方差 - 有偏估计
为什么样本方差（sample variance）的分母是 n-1？
- 为什么可以用 $S^2$ 来近似 $σ^2$
- 为什么使用 $\bar{X}$ 替代 $\mu$ 之后，分母是 $n - 1$

均值 - 无偏估计

现实中常常有这样的问题，比如，想知道全体女性的身高均值 $\mu$ ，但是没有办法把每个女性都进行测量，只有抽样一些女性来估计全体女性的身高：
在这里插入图片描述
比如说我们采样到的女性身高分别为：
$\{x_1,x_2,\cdots,x_n\}$

那么：
$\overline{X}=\frac{x_1+x_2+\cdots+x_n}{n} \tag{1}$

是对 $\mu$ 不错的一个估计，为什么？因为它是无偏估计。

首先，真正的全体女性的身高均值$\mu$，我们是不知道，只有上帝才知道，在图中就画为虚线：

在这里插入图片描述
我们通过采样计算出 $\overline{X}$ ：

会发现，不同采样得到的 $\bar{X}$ 是围绕 $\mu$ 左右波动的.

均值是一个无偏估计，在证明之前，先罗列需要用到的几个公式，对随机变量 $X$ 有：
$E(ax_i)=aE(x_i)\\ E(∑^n_{i=1}x_i)=∑^n_{i=1}E(x_i) \tag{2}$

证明如下：
$E[\overline{h}]=E[\frac{∑^n_{i=1}x_i}{n}] =\frac{1}{n}∑^n_{i=1}E(x_i) =\frac{1}{n}∑^n_{i=1}\mu =\mu \tag{3}$

也就是说 $\bar{h}$ 的期望等于随机变量 $h$ 的期望 $\mu$ ，所以是无偏估计。

方差 - 有偏估计

现在我们想要看一下世界上所有学生身高的稳定程度，那么就要计算学生身高的方差：
$σ^2=\frac{1}{N}∑^N_{i=1}(h_i-\mu)^2 \tag{4}$

但是我们遇到了同样的问题，无法获取所有学生的身高，所以同样采样：
$S^2=\frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{5}$

利用 $S^2$ 来近似 $σ^2$ ，此时便出现了一个问题， $\mu$ 是未知的，所以我们只能使用均值 $\bar{h}$ 来代替，于是得到：
$S^2=\frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 \tag{6}$

但是在替换之后问题便出现了，根据最小二乘法，均方差的最优解（能取得 $S^2$ 最小值的解）就是 $\bar{h}$ ，即：
$\bar{h}=argmin_{h_*}[\frac{1}{n}∑^n_{i=1}(h_i-h_*)^2] \tag{7}$

既然 $h_*=\bar{h}$ 时 $S^2$ 最小，那么我们将 $\mu$ 替换成 $\bar{h}$ 后则一定有如下不等式成立：
$\frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 <= \frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{8}$

即：
$S^2 <= σ^2 \tag{9}$

可见，用 $S^2$ 来近似，低估了 $σ^2$ 。其实我们希望是这样的 $E[S^2]=σ^2$ ，但此时却被低估了。（类似均值 $E[\bar{h}]=\mu$ ，这里 $S^2$ 对应 $\bar{h}$ 属于近似值， $σ^2$ 对应 $\mu$ 属于真实期望值）

为什么样本方差（sample variance）的分母是 n-1？

先把问题完整地描述下。

如果已知随机变量 $X$ 的期望为 $\mu$ ，那么可以如下计算方差 $σ^2$ ：
$σ^2 = E[(X-E(X))^2] ＝ E[(X-\mu)^2] \tag{10}$

这里说一下，方差有两种计算公式，上面的公式是概率的计算公式，而下面的公式是统计的计算公式。

上面的式子需要知道 $X$ 的具体分布是什么（在现实应用中往往不知道准确分布），计算起来也比较复杂。

所以实践中常常采样之后，用下面这个 $S^2$ 来近似 $σ^2$ ：

为什么可以近似？初次考虑的是这两个式子是不同领域内的对同一量的定义公式，可以相互替换，但是为什么不同领域的不同的定义式可以表达同一个量？后面讨论一下！

$S^2=\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 \tag{11}$

其实现实中，往往连 $X$ 的期望 $\mu$ 也不清楚，只知道样本的均值：
$\bar{X}=\frac{1}{n}∑^n_{i=1}x_i \tag{12}$

那么可以这么来计算 $S^2$ ：
$S^2=\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2 \tag{13}$

那这里就有两个问题了：

为什么可以用 $S^2$ 来近似 $σ^2$ ？
为什么使用 $S^2$ 替代 $σ^2$ 之后，分母是 $n - 1$ ？

我们来仔细分析下细节，就可以弄清楚这两个问题。

为什么可以用 $S^2$ 来近似 $σ^2$

因为式(10)和式(11)可以转化：
$E[S^2]=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] = \frac{1}{n}∑^n_{i=1}E[(x_i-\mu)^2] = σ^2 \tag{14}$

同式(3)一样，这是一个无偏估计，所以可以用 $S^2$ 来近似 $σ^2$ 。

那为什么会存在有偏估计，那是因为我们将式(11)近似成了式(13)，即用$\bar{X}$替换了$\mu$产生了偏差，那这个偏差是多少，我们下个小标题讨论。

举个例子说明用 $S^2$ 来近似 $σ^2$ ，假设 $X$ 服从这么一个正态分布：
$X～N(145，1.4^2)$

即， $\mu=145，σ^2=1.4^2=1.96$ ，图形如下：
在这里插入图片描述
当然，现实中往往并不清楚X服从的分布是什么，具体参数又是什么？所以用虚线来表明我们并不是真正知道 $X$ 的分布：

很幸运的，我们知道 $\mu=145$ ，因此对 $X$ 采样，并通过：
$S^2=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{15}$

来估计 $σ^2$ 。某次采样计算出来的 $S^2$ ：
在这里插入图片描述
看起来比 $σ^2$ 要小。采样具有随机性，我们多采样几次， $S^2$ 会围绕 $σ^2$ 上下波动：

由式(14)及中心极限定理得， $S^2$ 的采样均值会服从 $\mu'=σ^2=1.4^2$ 的正态分布：

这也就是所谓的无偏估计量。从这个分布来看，选择 $S^2$ 作为估计量确实可以接受。

为什么使用 $\bar{X}$ 替代 $\mu$ 之后，分母是 $n - 1$

更多的情况，我们不知道 $\mu$ 是多少的，只能计算出 $\bar{X}$ 。不同的采样对应不同的 $\bar{X}$ ：
在这里插入图片描述
对于某次采样而言，当 $\mu=\bar{X}$ 时，下式取得最小值：
$∑^n_{i=1}(X_i-\mu)^2 \tag{16}$

我们也是比较容易从图像中观察出这一点，只要 $\mu$ 偏离 $\bar{X}$ ，该值就会增大：
在这里插入图片描述
所以可知：
$∑^n_{i=1}(X_i-\bar{X})^2<=∑^n_{i=1}(X_i-\mu)^2 \tag{17}$

可推出：
$\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2<=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{18}$

进而推出：
$E[\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2]<=E[\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2]=σ^2 \tag{19}$

如果用下面这个式子来估计：
$S^2=\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2 \tag{20}$

那么 $S^2$ 采样均值会服从一个偏离 $\mu'$ 的正态分布：
在这里插入图片描述
可见，此分布倾向于低估 $σ^2$ 。
具体小了多少，我们可以来算下：
$\begin{aligned} E[S^2] &=E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)-(\bar{X}-\mu))^2] \\ &= E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)^2-2(\bar{X}-\mu)(x_i-\mu)+(\bar{X}-\mu)^2)] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2∑^n_{i=1}1] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2n] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \tag{21} \end{aligned}$

其中：
$\bar{X}-\mu = \frac{1}{n}∑^n_{i=1}x_i-\mu=\frac{1}{n}∑^n_{i=1}x_i-\frac{1}{n}∑^n_{i=1}\mu= \frac{1}{n}∑^n_{i=1}(x_i-\mu) \tag{22}$

所以我们接着算下去：
$\begin{aligned} E[S^2] &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)n(\bar{X}-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - (\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] - E[(\bar{X}-\mu)^2] \\ &=σ^2-E[(\bar{X}-\mu)^2] \tag{23} \end{aligned}$

因为：
$E[\bar{X}]=E[\frac{∑^n_{i=1}X_i}{n}]=\frac{1}{n}∑^n_{i=1}E[X_i]=\frac{1}{n}∑^n_{i=1}\mu=\mu \tag{24}$

其中：
$\begin{aligned} E[(\bar{X}-\mu)^2] &=E[(\bar{X}-E[\bar{X}])^2] = var(\bar{X}) \\ &=var(\frac{∑^n_{i=1}X_i}{n}) \\ &=\frac{1}{n^2}∑^n_{i=1}var(X_i) \\ &=\frac{nσ^2}{n^2} \\ &=\frac{σ^2}{n} \tag{25} \end{aligned}$