本篇为《深度学习》系列博客的第六篇,该系列博客主要记录深度学习相关知识的学习过程和自己的理解,方便以后查阅。
看PCA时遇到方差计算公式分母是n-1而不是n,于是查阅资料就发现有偏估计和无偏估计,并且可以把有偏估计转换为无偏估计,这里做一下笔记。
有偏估计 and 无偏估计
均值 - 无偏估计
现实中常常有这样的问题,比如,想知道全体女性的身高均值
μ
\mu
μ,但是没有办法把每个女性都进行测量,只有抽样一些女性来估计全体女性的身高:
比如说我们采样到的女性身高分别为:
{
x
1
,
x
2
,
⋯
,
x
n
}
\{x_1,x_2,\cdots,x_n\}
{x1,x2,⋯,xn}
那么:
X
‾
=
x
1
+
x
2
+
⋯
+
x
n
n
(1)
\overline{X}=\frac{x_1+x_2+\cdots+x_n}{n} \tag{1}
X=nx1+x2+⋯+xn (1)
是对
μ
\mu
μ不错的一个估计,为什么?因为它是无偏估计
。
首先,真正的全体女性的身高均值$\mu$,我们是不知道
,只有上帝才知道,在图中就画为虚线:
我们通过采样计算出
X
‾
\overline{X}
X:
会发现,不同采样得到的
X
ˉ
\bar{X}
Xˉ是围绕
μ
\mu
μ左右波动的.
均值是一个无偏估计,在证明之前,先罗列需要用到的几个公式,对随机变量
X
X
X有:
E
(
a
x
i
)
=
a
E
(
x
i
)
E
(
∑
i
=
1
n
x
i
)
=
∑
i
=
1
n
E
(
x
i
)
(2)
E(ax_i)=aE(x_i)\\ E(∑^n_{i=1}x_i)=∑^n_{i=1}E(x_i) \tag{2}
E(axi)=aE(xi)E(i=1∑nxi)=i=1∑nE(xi) (2)
证明如下:
E
[
h
‾
]
=
E
[
∑
i
=
1
n
x
i
n
]
=
1
n
∑
i
=
1
n
E
(
x
i
)
=
1
n
∑
i
=
1
n
μ
=
μ
(3)
E[\overline{h}]=E[\frac{∑^n_{i=1}x_i}{n}] =\frac{1}{n}∑^n_{i=1}E(x_i) =\frac{1}{n}∑^n_{i=1}\mu =\mu \tag{3}
E[h]=E[n∑i=1nxi]=n1i=1∑nE(xi)=n1i=1∑nμ=μ(3)
也就是说
h
ˉ
\bar{h}
hˉ的期望等于随机变量
h
h
h的期望
μ
\mu
μ,所以是无偏估计
。
方差 - 有偏估计
现在我们想要看一下世界上所有学生身高的稳定程度,那么就要计算学生身高的方差:
σ
2
=
1
N
∑
i
=
1
N
(
h
i
−
μ
)
2
(4)
σ^2=\frac{1}{N}∑^N_{i=1}(h_i-\mu)^2 \tag{4}
σ2=N1i=1∑N(hi−μ)2(4)
但是我们遇到了同样的问题,无法获取所有学生的身高
,所以同样采样:
S
2
=
1
n
∑
i
=
1
n
(
h
i
−
μ
)
2
(5)
S^2=\frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{5}
S2=n1i=1∑n(hi−μ)2(5)
利用
S
2
S^2
S2来近似
σ
2
σ^2
σ2,此时便出现了一个问题,
μ
\mu
μ是未知的,所以我们只能使用均值
h
ˉ
\bar{h}
hˉ来代替
,于是得到:
S
2
=
1
n
∑
i
=
1
n
(
h
i
−
h
ˉ
)
2
(6)
S^2=\frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 \tag{6}
S2=n1i=1∑n(hi−hˉ)2(6)
但是在替换之后问题便出现了,根据最小二乘法,均方差的最优解
(能取得
S
2
S^2
S2最小值的解)就是
h
ˉ
\bar{h}
hˉ,即:
h
ˉ
=
a
r
g
m
i
n
h
∗
[
1
n
∑
i
=
1
n
(
h
i
−
h
∗
)
2
]
(7)
\bar{h}=argmin_{h_*}[\frac{1}{n}∑^n_{i=1}(h_i-h_*)^2] \tag{7}
hˉ=argminh∗[n1i=1∑n(hi−h∗)2](7)
既然
h
∗
=
h
ˉ
h_*=\bar{h}
h∗=hˉ时
S
2
S^2
S2最小,那么我们将
μ
\mu
μ替换成
h
ˉ
\bar{h}
hˉ后则一定有如下不等式
成立:
1
n
∑
i
=
1
n
(
h
i
−
h
ˉ
)
2
<
=
1
n
∑
i
=
1
n
(
h
i
−
μ
)
2
(8)
\frac{1}{n}∑^n_{i=1}(h_i-\bar{h})^2 <= \frac{1}{n}∑^n_{i=1}(h_i-\mu)^2 \tag{8}
n1i=1∑n(hi−hˉ)2<=n1i=1∑n(hi−μ)2(8)
即:
S
2
<
=
σ
2
(9)
S^2 <= σ^2 \tag{9}
S2<=σ2(9)
可见,用
S
2
S^2
S2来近似,低估
了
σ
2
σ^2
σ2。其实我们希望是这样的
E
[
S
2
]
=
σ
2
E[S^2]=σ^2
E[S2]=σ2,但此时却被低估了。(类似均值
E
[
h
ˉ
]
=
μ
E[\bar{h}]=\mu
E[hˉ]=μ,这里
S
2
S^2
S2对应
h
ˉ
\bar{h}
hˉ属于近似值,
σ
2
σ^2
σ2对应
μ
\mu
μ属于真实期望值)
为什么样本方差(sample variance)的分母是 n-1?
先把问题完整地描述下。
如果已知随机变量
X
X
X的期望为
μ
\mu
μ,那么可以如下计算方差
σ
2
σ^2
σ2:
σ
2
=
E
[
(
X
−
E
(
X
)
)
2
]
=
E
[
(
X
−
μ
)
2
]
(10)
σ^2 = E[(X-E(X))^2] = E[(X-\mu)^2] \tag{10}
σ2=E[(X−E(X))2]=E[(X−μ)2](10)
这里说一下,方差有两种计算公式,上面的公式是
概率
的计算公式,而下面的公式是统计
的计算公式。
上面的式子需要知道 X X X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
所以实践中常常采样之后,用下面这个 S 2 S^2 S2来近似 σ 2 σ^2 σ2:
为什么可以近似?
初次考虑的是这两个式子是不同领域内的对同一量的定义公式,可以相互替换,但是为什么不同领域的不同的定义式可以表达同一个量?后面讨论一下!
S 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 (11) S^2=\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 \tag{11} S2=n1i=1∑n(xi−μ)2(11)
其实现实中,往往连
X
X
X的期望
μ
\mu
μ也不清楚,只知道样本的均值:
X
ˉ
=
1
n
∑
i
=
1
n
x
i
(12)
\bar{X}=\frac{1}{n}∑^n_{i=1}x_i \tag{12}
Xˉ=n1i=1∑nxi(12)
那么可以这么来计算
S
2
S^2
S2:
S
2
=
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
(13)
S^2=\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2 \tag{13}
S2=n1i=1∑n(xi−Xˉ)2(13)
那这里就有两个问题了:
- 为什么可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2?
- 为什么使用 S 2 S^2 S2替代 σ 2 σ^2 σ2之后,分母是 n − 1 n-1 n−1?
我们来仔细分析下细节,就可以弄清楚这两个问题。
为什么可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2
因为式(10)和式(11)可以转化:
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
]
=
1
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
2
]
=
σ
2
(14)
E[S^2]=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] = \frac{1}{n}∑^n_{i=1}E[(x_i-\mu)^2] = σ^2 \tag{14}
E[S2]=E[n1i=1∑n(xi−μ)2]=n1i=1∑nE[(xi−μ)2]=σ2(14)
同式(3)一样,这是一个无偏估计,所以可以用 S 2 S^2 S2来近似 σ 2 σ^2 σ2。
那为什么会存在有偏估计,那是因为我们将式(11)近似成了式(13),即用$\bar{X}$替换了$\mu$产生了偏差,那这个偏差是多少,我们下个小标题讨论。
举个例子说明用
S
2
S^2
S2来近似
σ
2
σ^2
σ2,假设
X
X
X服从这么一个正态分布:
X
~
N
(
145
,
1.
4
2
)
X~N(145,1.4^2)
X~N(145,1.42)
即,
μ
=
145
,
σ
2
=
1.
4
2
=
1.96
\mu=145,σ^2=1.4^2=1.96
μ=145,σ2=1.42=1.96,图形如下:
当然,现实中往往并不清楚X服从的分布是什么
,具体参数又是什么?所以用虚线来表明我们并不是真正知道
X
X
X的分布:
很幸运的,我们知道
μ
=
145
\mu=145
μ=145,因此对
X
X
X采样,并通过:
S
2
=
1
n
∑
i
=
1
n
(
X
i
−
μ
)
2
(15)
S^2=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{15}
S2=n1i=1∑n(Xi−μ)2(15)
来估计
σ
2
σ^2
σ2。某次采样计算出来的
S
2
S^2
S2:
看起来比
σ
2
σ^2
σ2要小。采样具有随机性
,我们多采样几次,
S
2
S^2
S2会围绕
σ
2
σ^2
σ2上下波动
:
由式(14)及中心极限定理得,
S
2
S^2
S2的采样均值会服从
μ
′
=
σ
2
=
1.
4
2
\mu'=σ^2=1.4^2
μ′=σ2=1.42的正态分布:
这也就是所谓的无偏估计量。从这个分布来看,选择
S
2
S^2
S2作为估计量确实可以接受。
为什么使用 X ˉ \bar{X} Xˉ替代 μ \mu μ之后,分母是 n − 1 n-1 n−1
更多的情况,我们不知道
μ
\mu
μ是多少的,只能计算出
X
ˉ
\bar{X}
Xˉ。不同的采样对应不同的
X
ˉ
\bar{X}
Xˉ:
对于某次采样而言,当
μ
=
X
ˉ
\mu=\bar{X}
μ=Xˉ时,下式取得最小值:
∑
i
=
1
n
(
X
i
−
μ
)
2
(16)
∑^n_{i=1}(X_i-\mu)^2 \tag{16}
i=1∑n(Xi−μ)2(16)
我们也是比较容易从图像中观察出这一点,只要
μ
\mu
μ偏离
X
ˉ
\bar{X}
Xˉ,该值就会增大:
所以可知:
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
<
=
∑
i
=
1
n
(
X
i
−
μ
)
2
(17)
∑^n_{i=1}(X_i-\bar{X})^2<=∑^n_{i=1}(X_i-\mu)^2 \tag{17}
i=1∑n(Xi−Xˉ)2<=i=1∑n(Xi−μ)2(17)
可推出:
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
<
=
1
n
∑
i
=
1
n
(
X
i
−
μ
)
2
(18)
\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2<=\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2 \tag{18}
n1i=1∑n(Xi−Xˉ)2<=n1i=1∑n(Xi−μ)2(18)
进而推出:
E
[
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
<
=
E
[
1
n
∑
i
=
1
n
(
X
i
−
μ
)
2
]
=
σ
2
(19)
E[\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2]<=E[\frac{1}{n}∑^n_{i=1}(X_i-\mu)^2]=σ^2 \tag{19}
E[n1i=1∑n(Xi−Xˉ)2]<=E[n1i=1∑n(Xi−μ)2]=σ2(19)
如果用下面这个式子来估计:
S
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
(20)
S^2=\frac{1}{n}∑^n_{i=1}(X_i-\bar{X})^2 \tag{20}
S2=n1i=1∑n(Xi−Xˉ)2(20)
那么
S
2
S^2
S2采样均值会服从一个偏离
μ
′
\mu'
μ′的正态分布:
可见,此分布倾向于低估
σ
2
σ^2
σ2。
具体小了多少,我们可以来算下:
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
−
(
X
ˉ
−
μ
)
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
(
x
i
−
μ
)
2
−
2
(
X
ˉ
−
μ
)
(
x
i
−
μ
)
+
(
X
ˉ
−
μ
)
2
)
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
(
X
ˉ
−
μ
)
∑
i
=
1
n
(
x
i
−
μ
)
+
1
n
(
X
ˉ
−
μ
)
2
∑
i
=
1
n
1
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
(
X
ˉ
−
μ
)
∑
i
=
1
n
(
x
i
−
μ
)
+
1
n
(
X
ˉ
−
μ
)
2
n
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
(
X
ˉ
−
μ
)
∑
i
=
1
n
(
x
i
−
μ
)
+
(
X
ˉ
−
μ
)
2
]
(21)
\begin{aligned} E[S^2] &=E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)-(\bar{X}-\mu))^2] \\ &= E[\frac{1}{n}∑^n_{i=1}((x_i-\mu)^2-2(\bar{X}-\mu)(x_i-\mu)+(\bar{X}-\mu)^2)] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2∑^n_{i=1}1] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+\frac{1}{n}(\bar{X}-\mu)^2n] \\ &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \tag{21} \end{aligned}
E[S2]=E[n1i=1∑n(xi−Xˉ)2]=E[n1i=1∑n((xi−μ)−(Xˉ−μ))2]=E[n1i=1∑n((xi−μ)2−2(Xˉ−μ)(xi−μ)+(Xˉ−μ)2)]=E[n1i=1∑n(xi−μ)2−n2(Xˉ−μ)i=1∑n(xi−μ)+n1(Xˉ−μ)2i=1∑n1]=E[n1i=1∑n(xi−μ)2−n2(Xˉ−μ)i=1∑n(xi−μ)+n1(Xˉ−μ)2n]=E[n1i=1∑n(xi−μ)2−n2(Xˉ−μ)i=1∑n(xi−μ)+(Xˉ−μ)2](21)
其中:
X
ˉ
−
μ
=
1
n
∑
i
=
1
n
x
i
−
μ
=
1
n
∑
i
=
1
n
x
i
−
1
n
∑
i
=
1
n
μ
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
(22)
\bar{X}-\mu = \frac{1}{n}∑^n_{i=1}x_i-\mu=\frac{1}{n}∑^n_{i=1}x_i-\frac{1}{n}∑^n_{i=1}\mu= \frac{1}{n}∑^n_{i=1}(x_i-\mu) \tag{22}
Xˉ−μ=n1i=1∑nxi−μ=n1i=1∑nxi−n1i=1∑nμ=n1i=1∑n(xi−μ)(22)
所以我们接着算下去:
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
(
X
ˉ
−
μ
)
∑
i
=
1
n
(
x
i
−
μ
)
+
(
X
ˉ
−
μ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
2
n
(
X
ˉ
−
μ
)
n
(
X
ˉ
−
μ
)
+
(
X
ˉ
−
μ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
(
X
ˉ
−
μ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
]
−
E
[
(
X
ˉ
−
μ
)
2
]
=
σ
2
−
E
[
(
X
ˉ
−
μ
)
2
]
(23)
\begin{aligned} E[S^2] &= E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)∑^n_{i=1}(x_i-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - \frac{2}{n}(\bar{X}-\mu)n(\bar{X}-\mu)+(\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2 - (\bar{X}-\mu)^2] \\ &=E[\frac{1}{n}∑^n_{i=1}(x_i-\mu)^2] - E[(\bar{X}-\mu)^2] \\ &=σ^2-E[(\bar{X}-\mu)^2] \tag{23} \end{aligned}
E[S2]=E[n1i=1∑n(xi−μ)2−n2(Xˉ−μ)i=1∑n(xi−μ)+(Xˉ−μ)2]=E[n1i=1∑n(xi−μ)2−n2(Xˉ−μ)n(Xˉ−μ)+(Xˉ−μ)2]=E[n1i=1∑n(xi−μ)2−(Xˉ−μ)2]=E[n1i=1∑n(xi−μ)2]−E[(Xˉ−μ)2]=σ2−E[(Xˉ−μ)2](23)
因为:
E
[
X
ˉ
]
=
E
[
∑
i
=
1
n
X
i
n
]
=
1
n
∑
i
=
1
n
E
[
X
i
]
=
1
n
∑
i
=
1
n
μ
=
μ
(24)
E[\bar{X}]=E[\frac{∑^n_{i=1}X_i}{n}]=\frac{1}{n}∑^n_{i=1}E[X_i]=\frac{1}{n}∑^n_{i=1}\mu=\mu \tag{24}
E[Xˉ]=E[n∑i=1nXi]=n1i=1∑nE[Xi]=n1i=1∑nμ=μ(24)
其中:
E
[
(
X
ˉ
−
μ
)
2
]
=
E
[
(
X
ˉ
−
E
[
X
ˉ
]
)
2
]
=
v
a
r
(
X
ˉ
)
=
v
a
r
(
∑
i
=
1
n
X
i
n
)
=
1
n
2
∑
i
=
1
n
v
a
r
(
X
i
)
=
n
σ
2
n
2
=
σ
2
n
(25)
\begin{aligned} E[(\bar{X}-\mu)^2] &=E[(\bar{X}-E[\bar{X}])^2] = var(\bar{X}) \\ &=var(\frac{∑^n_{i=1}X_i}{n}) \\ &=\frac{1}{n^2}∑^n_{i=1}var(X_i) \\ &=\frac{nσ^2}{n^2} \\ &=\frac{σ^2}{n} \tag{25} \end{aligned}
E[(Xˉ−μ)2]=E[(Xˉ−E[Xˉ])2]=var(Xˉ)=var(n∑i=1nXi)=n21i=1∑nvar(Xi)=n2nσ2=nσ2(25)
所以:
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
]
=
σ
2
−
σ
2
n
=
n
−
1
n
σ
2
(26)
E[S^2] =E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = σ^2- \frac{σ^2}{n}=\frac{n-1}{n}σ^2 \tag{26}
E[S2]=E[n1i=1∑n(xi−Xˉ)2]=σ2−nσ2=nn−1σ2(26)
也就是说,低估了
1
n
σ
2
\frac{1}{n}σ^2
n1σ2,进行一下调整:
n
n
−
1
E
[
1
n
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
]
=
E
[
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
]
=
σ
2
(27)
\frac{n}{n-1}E[\frac{1}{n}∑^n_{i=1}(x_i-\bar{X})^2] = E[\frac{1}{n-1}∑^n_{i=1}(x_i-\bar{X})^2]=σ^2 \tag{27}
n−1nE[n1i=1∑n(xi−Xˉ)2]=E[n−11i=1∑n(xi−Xˉ)2]=σ2(27)
因此使用下面这个式子进行估计,得到的就是无偏估计:
S
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
X
ˉ
)
2
(28)
S^2= \frac{1}{n-1}∑^n_{i=1}(x_i-\bar{X})^2 \tag{28}
S2=n−11i=1∑n(xi−Xˉ)2(28)
到此结束!!!
参考文献:
- https://www.matongxue.com/madocs/808
- https://blog.csdn.net/weixin_37352167/article/details/90338977?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.pc_relevant_is_cache&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.pc_relevant_is_cache
- https://www.zhihu.com/question/20099757