有偏估计 and 无偏估计

本文介绍了有偏估计与无偏估计的概念,特别是在计算样本方差时的应用。通过实例解释为什么样本方差的分母是n-1而不是n,以及如何从有偏估计转换为无偏估计。文章详细探讨了使用样本均值替代总体均值后,分母变化的原因,展示了样本方差S2作为总体方差σ2的无偏估计的数学推导过程。
摘要由CSDN通过智能技术生成

本篇为《深度学习》系列博客的第六篇,该系列博客主要记录深度学习相关知识的学习过程和自己的理解,方便以后查阅。

看PCA时遇到方差计算公式分母是n-1而不是n,于是查阅资料就发现有偏估计和无偏估计,并且可以把有偏估计转换为无偏估计,这里做一下笔记。

均值 - 无偏估计

现实中常常有这样的问题,比如,想知道全体女性的身高均值 μ \mu μ,但是没有办法把每个女性都进行测量,只有抽样一些女性来估计全体女性的身高:
在这里插入图片描述
比如说我们采样到的女性身高分别为:
{ x 1 , x 2 , ⋯   , x n }     \{x_1,x_2,\cdots,x_n\}   {x1,x2,,xn}  

那么:
X ‾ = x 1 + x 2 + ⋯ + x n n   (1) \overline{X}=\frac{x_1+x_2+\cdots+x_n}{n} \tag{1} X=nx1+x2++xn (1)

是对 μ \mu μ不错的一个估计,为什么?因为它是无偏估计

首先,真正的全体女性的身高均值$\mu$,我们是不知道,只有上帝才知道,在图中就画为虚线:

在这里插入图片描述
我们通过采样计算出 X ‾ \overline{X} X
在这里插入图片描述
会发现,不同采样得到的 X ˉ \bar{X} Xˉ是围绕 μ \mu μ左右波动的.

均值是一个无偏估计,在证明之前,先罗列需要用到的几个公式,对随机变量 X X X有:
E ( a x i ) = a E ( x i ) E ( ∑ i = 1 n x i ) = ∑ i = 1 n E ( x i )   (2) E(ax_i)=aE(x_i)\\ E(∑^n_{i=1}x_i)=∑^n_{i=1}E(x_i) \tag{2} E(axi)=aE(xi)E(i=1nxi)=i=1nE(xi) (2)

证明如下:
E [ h ‾ ] = E [ ∑ i = 1 n x i n ] = 1 n ∑ i = 1 n E ( x i ) = 1 n ∑ i = 1 n μ = μ (3) E[\overline{h}]=E[\frac{∑^n_{i=1}x_i}{n}] =\frac{1}{n}∑^n_{i=1}E(x_i) =\frac{1}{n}∑^n_{i=1}\mu =\mu \tag{3} E[h]=E[ni=1nxi]=n1i=1nE(xi)=n1i=1nμ=μ(3)

也就是说 h ˉ \bar{h} hˉ的期望等于随机变量 h h h的期望 μ \mu μ,所以是无偏估计

方差 - 有偏估计

现在我们想要看一下世界上所有学生身高的稳定程度,那么就要计算学生身高的方差:
σ 2 = 1 N ∑ i = 1 N ( h i − μ ) 2 (4) σ^2=\frac{1}{N}∑^N_{i=1}(h_i-\mu)^2 \tag{4} σ2=N1i=1N(hiμ)2(4)

但是我们遇到了同样的问题,无法获取所有学生的身高,所以同样采样:
S 2 = 1 n ∑ i = 1 n ( h i − μ ) 2 (5) S^2=\frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{5} S2=n1i=1n(hiμ)2(5)

利用 S 2 S^2 S2来近似 σ 2 σ^2 σ2,此时便出现了一个问题, μ \mu μ是未知的,所以我们只能使用均值 h ˉ \bar{h} hˉ代替,于是得到:
S 2 = 1 n ∑ i = 1 n ( h i − h ˉ ) 2 (6) S^2=\frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 \tag{6} S2=n1i=1n(hihˉ)2(6)

但是在替换之后问题便出现了,根据最小二乘法,均方差的最优解(能取得 S 2 S^2 S2最小值的解)就是 h ˉ \bar{h} hˉ,即:
h ˉ = a r g m i n h ∗ [ 1 n ∑ i = 1 n ( h i − h ∗ ) 2 ] (7) \bar{h}=argmin_{h_*}[\frac{1}{n}∑^n_{i=1}(h_i-h_*)^2] \tag{7} hˉ=argminh[n1i=1n(hih)2](7)

既然 h ∗ = h ˉ h_*=\bar{h} h=hˉ S 2 S^2 S2最小,那么我们将 μ \mu μ替换成 h ˉ \bar{h} hˉ后则一定有如下不等式成立:
1 n ∑ i = 1 n ( h i − h ˉ ) 2 < = 1 n ∑ i = 1 n ( h i − μ ) 2 (8) \frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 <= \frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{8} n1i=1n(hihˉ)2<=n1i=1n(hiμ)2(8)

即:
S 2 < = σ 2 (9) S^2 <= σ^2 \tag{9} S2<=σ2(9)

可见,用 S 2 S^2 S2来近似,低估 σ 2 σ^2 σ2。其实我们希望是这样的 E [ S 2 ] = σ 2 E[S^2]=σ^2 E[S2]=σ2,但此时却被低估了。(类似均值 E [ h ˉ ] = μ E[\bar{h}]=\mu E[hˉ]=μ,这里 S 2 S^2 S2对应 h ˉ \bar{h} hˉ属于近似值, σ 2 σ^2 σ2对应 μ \mu μ属于真实期望值)

为什么样本方差(sample variance)的分母是 n-1?

先把问题完整地描述下。

如果已知随机变量 X X X的期望为 μ \mu μ,那么可以如下计算方差 σ 2 σ^2 σ2
σ 2 = E [ ( X − E ( X ) ) 2 ] = E [ ( X − μ ) 2 ] (10) σ^2 = E[(X-E(X))^2] = E[(X-\mu)^2] \tag{10} σ2=E[(XE(X))2]E[(Xμ)2](10)

这里说一下,方差有两种计算公式,上面的公式是概率的计算公式,而下面的公式是统计的计算公式。

上面的式子需要知道 X X X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个 S 2 S^2 S2来近似 σ 2 σ^2 σ2

为什么可以近似?初次考虑的是这两个式子是不同领域内的对同一量的定义公式,可以相互替换,但是为什么不同领域的不同的定义式可以表达同一个量?后面讨论一下!

S 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 (11) S^2=\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 \tag{11} S2=n1i=1n(xiμ)2(11)

其实现实中,往往连 X X X的期望 μ \mu μ也不清楚,只知道样本的均值:
X ˉ = 1 n ∑ i = 1 n x i (12) \bar{X}=\frac{1}{n}∑^n_{i=1}x_i \tag{12} Xˉ=n1i=1nxi(12)

那么可以这么来计算 S 2 S^2 S2
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 (13) S^2=\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2 \tag{13} S2=n1i=1n(xiXˉ)2(13)

那这里就有两个问题了:

  1. 为什么可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2
  2. 为什么使用 S 2 S^2 S2替代 σ 2 σ^2 σ2之后,分母是 n − 1 n-1 n1

我们来仔细分析下细节,就可以弄清楚这两个问题。

为什么可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2

因为式(10)和式(11)可以转化:
E [ S 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 ] = 1 n ∑ i = 1 n E [ ( x i − μ ) 2 ] = σ 2 (14) E[S^2]=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] = \frac{1}{n}∑^n_{i=1}E[(x_i-\mu)^2] = σ^2 \tag{14} E[S2]=E[n1i=1n(xiμ)2]=n1i=1nE[(xiμ)2]=σ2(14)

同式(3)一样,这是一个无偏估计,所以可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2

那为什么会存在有偏估计,那是因为我们将式(11)近似成了式(13),即用$\bar{X}$替换了$\mu$产生了偏差,那这个偏差是多少,我们下个小标题讨论。

举个例子说明用 S 2 S^2 S2来近似 σ 2 σ^2 σ2,假设 X X X服从这么一个正态分布:
X ~ N ( 145 , 1. 4 2 ) X~N(145,1.4^2) XN(1451.42)

即, μ = 145 , σ 2 = 1. 4 2 = 1.96 \mu=145,σ^2=1.4^2=1.96 μ=145σ2=1.42=1.96,图形如下:
在这里插入图片描述
当然,现实中往往并不清楚X服从的分布是什么,具体参数又是什么?所以用虚线来表明我们并不是真正知道 X X X的分布:
在这里插入图片描述
很幸运的,我们知道 μ = 145 \mu=145 μ=145,因此对 X X X采样,并通过:
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 (15) S^2=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{15} S2=n1i=1n(Xiμ)2(15)

来估计 σ 2 σ^2 σ2。某次采样计算出来的 S 2 S^2 S2
在这里插入图片描述
看起来比 σ 2 σ^2 σ2要小。采样具有随机性,我们多采样几次, S 2 S^2 S2会围绕 σ 2 σ^2 σ2上下波动
在这里插入图片描述
由式(14)及中心极限定理得, S 2 S^2 S2的采样均值会服从 μ ′ = σ 2 = 1. 4 2 \mu'=σ^2=1.4^2 μ=σ2=1.42的正态分布:
在这里插入图片描述
这也就是所谓的无偏估计量。从这个分布来看,选择 S 2 S^2 S2作为估计量确实可以接受。

为什么使用 X ˉ \bar{X} Xˉ替代 μ \mu μ之后,分母是 n − 1 n-1 n1

更多的情况,我们不知道 μ \mu μ是多少的,只能计算出 X ˉ \bar{X} Xˉ。不同的采样对应不同的 X ˉ \bar{X} Xˉ
在这里插入图片描述
对于某次采样而言,当 μ = X ˉ \mu=\bar{X} μ=Xˉ时,下式取得最小值:
∑ i = 1 n ( X i − μ ) 2 (16) ∑^n_{i=1}(X_i-\mu)^2 \tag{16} i=1n(Xiμ)2(16)

我们也是比较容易从图像中观察出这一点,只要 μ \mu μ偏离 X ˉ \bar{X} Xˉ,该值就会增大:
在这里插入图片描述
所以可知:
∑ i = 1 n ( X i − X ˉ ) 2 < = ∑ i = 1 n ( X i − μ ) 2 (17) ∑^n_{i=1}(X_i-\bar{X})^2<=∑^n_{i=1}(X_i-\mu)^2 \tag{17} i=1n(XiXˉ)2<=i=1n(Xiμ)2(17)

可推出:
1 n ∑ i = 1 n ( X i − X ˉ ) 2 < = 1 n ∑ i = 1 n ( X i − μ ) 2 (18) \frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2<=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{18} n1i=1n(XiXˉ)2<=n1i=1n(Xiμ)2(18)

进而推出:
E [ 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ] < = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 (19) E[\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2]<=E[\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2]=σ^2 \tag{19} E[n1i=1n(XiXˉ)2]<=E[n1i=1n(Xiμ)2]=σ2(19)

如果用下面这个式子来估计:
S 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 (20) S^2=\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2 \tag{20} S2=n1i=1n(XiXˉ)2(20)

那么 S 2 S^2 S2采样均值会服从一个偏离 μ ′ \mu' μ的正态分布:
在这里插入图片描述
可见,此分布倾向于低估 σ 2 σ^2 σ2
具体小了多少,我们可以来算下:
E [ S 2 ] = E [ 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ] = E [ 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( X ˉ − μ ) ( x i − μ ) + ( X ˉ − μ ) 2 ) ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( x i − μ ) + 1 n ( X ˉ − μ ) 2 ∑ i = 1 n 1 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( x i − μ ) + 1 n ( X ˉ − μ ) 2 n ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( X ˉ − μ ) 2 ] (21) \begin{aligned} E[S^2] &=E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)-(\bar{X}-\mu))^2] \\ &= E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)^2-2(\bar{X}-\mu)(x_i-\mu)+(\bar{X}-\mu)^2)] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2∑^n_{i=1}1] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2n] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \tag{21} \end{aligned} E[S2]=E[n1i=1n(xiXˉ)2]=E[n1i=1n((xiμ)(Xˉμ))2]=E[n1i=1n((xiμ)22(Xˉμ)(xiμ)+(Xˉμ)2)]=E[n1i=1n(xiμ)2n2(Xˉμ)i=1n(xiμ)+n1(Xˉμ)2i=1n1]=E[n1i=1n(xiμ)2n2(Xˉμ)i=1n(xiμ)+n1(Xˉμ)2n]=E[n1i=1n(xiμ)2n2(Xˉμ)i=1n(xiμ)+(Xˉμ)2](21)

其中:
X ˉ − μ = 1 n ∑ i = 1 n x i − μ = 1 n ∑ i = 1 n x i − 1 n ∑ i = 1 n μ = 1 n ∑ i = 1 n ( x i − μ ) (22) \bar{X}-\mu = \frac{1}{n}∑^n_{i=1}x_i-\mu=\frac{1}{n}∑^n_{i=1}x_i-\frac{1}{n}∑^n_{i=1}\mu= \frac{1}{n}∑^n_{i=1}(x_i-\mu) \tag{22} Xˉμ=n1i=1nxiμ=n1i=1nxin1i=1nμ=n1i=1n(xiμ)(22)

所以我们接着算下去:
E [ S 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( X ˉ − μ ) ∑ i = 1 n ( x i − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ( X ˉ − μ ) n ( X ˉ − μ ) + ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 − ( X ˉ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 ] − E [ ( X ˉ − μ ) 2 ] = σ 2 − E [ ( X ˉ − μ ) 2 ] (23) \begin{aligned} E[S^2] &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)n(\bar{X}-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - (\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] - E[(\bar{X}-\mu)^2] \\ &=σ^2-E[(\bar{X}-\mu)^2] \tag{23} \end{aligned} E[S2]=E[n1i=1n(xiμ)2n2(Xˉμ)i=1n(xiμ)+(Xˉμ)2]=E[n1i=1n(xiμ)2n2(Xˉμ)n(Xˉμ)+(Xˉμ)2]=E[n1i=1n(xiμ)2(Xˉμ)2]=E[n1i=1n(xiμ)2]E[(Xˉμ)2]=σ2E[(Xˉμ)2](23)

因为:
E [ X ˉ ] = E [ ∑ i = 1 n X i n ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ∑ i = 1 n μ = μ (24) E[\bar{X}]=E[\frac{∑^n_{i=1}X_i}{n}]=\frac{1}{n}∑^n_{i=1}E[X_i]=\frac{1}{n}∑^n_{i=1}\mu=\mu \tag{24} E[Xˉ]=E[ni=1nXi]=n1i=1nE[Xi]=n1i=1nμ=μ(24)

其中:
E [ ( X ˉ − μ ) 2 ] = E [ ( X ˉ − E [ X ˉ ] ) 2 ] = v a r ( X ˉ ) = v a r ( ∑ i = 1 n X i n ) = 1 n 2 ∑ i = 1 n v a r ( X i ) = n σ 2 n 2 = σ 2 n (25) \begin{aligned} E[(\bar{X}-\mu)^2] &=E[(\bar{X}-E[\bar{X}])^2] = var(\bar{X}) \\ &=var(\frac{∑^n_{i=1}X_i}{n}) \\ &=\frac{1}{n^2}∑^n_{i=1}var(X_i) \\ &=\frac{nσ^2}{n^2} \\ &=\frac{σ^2}{n} \tag{25} \end{aligned} E[(Xˉμ)2]=E[(XˉE[Xˉ])2]=var(Xˉ)=var(ni=1nXi)=n21i=1nvar(Xi)=n2nσ2=nσ2(25)

所以:
E [ S 2 ] = E [ 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ] = σ 2 − σ 2 n = n − 1 n σ 2 (26) E[S^2] =E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = σ^2- \frac{σ^2}{n}=\frac{n-1}{n}σ^2 \tag{26} E[S2]=E[n1i=1n(xiXˉ)2]=σ2nσ2=nn1σ2(26)

也就是说,低估了 1 n σ 2 \frac{1}{n}σ^2 n1σ2,进行一下调整:
n n − 1 E [ 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ] = E [ 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 ] = σ 2 (27) \frac{n}{n-1}E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = E[\frac{1}{n-1}∑^n_{i=1}(x_i-\bar{X})^2]=σ^2 \tag{27} n1nE[n1i=1n(xiXˉ)2]=E[n11i=1n(xiXˉ)2]=σ2(27)

因此使用下面这个式子进行估计,得到的就是无偏估计:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 (28) S^2= \frac{1}{n-1}∑^n_{i=1}(x_i-\bar{X})^2 \tag{28} S2=n11i=1n(xiXˉ)2(28)

到此结束!!!

参考文献:

  1. https://www.matongxue.com/madocs/808
  2. https://blog.csdn.net/weixin_37352167/article/details/90338977?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.pc_relevant_is_cache&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.pc_relevant_is_cache
  3. https://www.zhihu.com/question/20099757
  • 19
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值