2-6 问题
假设有N个样本 x ( 1 ) , x ( 2 ) ⋅ ⋅ ⋅ ⋅ ⋅ x ( N ) x^{(1)},x^{(2)}·····x^{(N)} x(1),x(2)⋅⋅⋅⋅⋅x(N)服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),其中 μ \mu μ未知,
(1)使用最大似然估计来求解最优参数
μ
M
L
\mu^{ML}
μML
(2)若参数
μ
\mu
μ为随机变量,并服从正态分布
N
(
μ
0
,
σ
0
2
)
N(\mu_0,\sigma^2_0)
N(μ0,σ02),使用最大后验估计来计算求解最优参数
μ
M
A
P
\mu^{MAP}
μMAP。
解析
(1)
x
x
x服从均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2的高斯分布:
p
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
e
(
−
(
x
−
μ
)
2
2
σ
2
)
p\left( x;\mu ,\sigma ^2 \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{\left( -\frac{\left( x-\mu \right) ^2}{2\sigma ^2} \right)}
p(x;μ,σ2)=2πσ1e(−2σ2(x−μ)2),参数
μ
\mu
μ在样本
X
X
X上的似然函数为
p
(
x
∣
μ
,
σ
2
)
=
∏
n
=
1
N
p
(
x
(
n
)
;
μ
,
σ
2
)
=
∏
n
=
1
N
N
(
x
(
n
)
;
μ
,
σ
2
)
p\left( x|\mu ,\sigma ^2 \right) =\prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\prod_{n=1}^N{N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}
p(x∣μ,σ2)=n=1∏Np(x(n);μ,σ2)=n=1∏NN(x(n);μ,σ2)
为了方便计算,随似然函数取对数得到对数似然函数
log
p
(
x
∣
μ
,
σ
2
)
=
log
∏
n
=
1
N
p
(
x
(
n
)
;
μ
,
σ
2
)
=
∑
n
=
1
N
log
N
(
x
(
n
)
;
μ
,
σ
2
)
\log p\left( x|\mu ,\sigma ^2 \right) =\log \prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\sum_{n=1}^N{\log N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}
logp(x∣μ,σ2)=logn=1∏Np(x(n);μ,σ2)=n=1∑NlogN(x(n);μ,σ2)
=
log
e
2
π
σ
∑
n
=
1
N
−
(
x
(
n
)
−
μ
)
2
2
σ
2
\ \ \ \ \ \ \ \ \ \ \ \ \ \ =\log \frac{e}{\sqrt{2\pi}\sigma}\sum_{n=1}^N{-\frac{\left( x^{\left( n \right)}-\mu \right) ^2}{2\sigma ^2}}
=log2πσen=1∑N−2σ2(x(n)−μ)2
上式函数对
μ
\mu
μ求导并令其为零得到下结果:
∑
n
=
1
N
−
x
(
n
)
−
μ
σ
2
=
0
\sum_{n=1}^N{-\frac{x^{\left( n \right)}-\mu}{\sigma ^2}}=0
n=1∑N−σ2x(n)−μ=0
我们要想找到的是一组
μ
\mu
μ使得似然函数最大,等价于对数似然函数最大。上式求解得到如下结果:
μ
=
1
N
∑
n
=
1
N
x
(
n
)
\mu =\frac{1}{N}\sum_{n=1}^N{x^{\left( n \right)}}
μ=N1n=1∑Nx(n)
上述的
μ
\mu
μ为样本均值。
(2)根据题目知参数
μ
\mu
μ服从正态分布
N
(
μ
0
,
σ
0
2
)
N\left( \mu _0,\sigma _{0}^{2} \right)
N(μ0,σ02)
参数
μ
\mu
μ的后验分布(Posterior Distribution)为
p
(
μ
∣
x
;
μ
0
,
σ
0
2
)
=
p
(
μ
,
x
;
μ
0
,
σ
0
2
)
∑
μ
p
(
μ
,
x
;
μ
0
,
σ
0
2
)
p\left( \mu |x;\mu _0,\sigma _{0}^{2} \right) =\frac{p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}{\sum{_{\mu}p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}}
p(μ∣x;μ0,σ02)=∑μp(μ,x;μ0,σ02)p(μ,x;μ0,σ02)
∝
p
(
x
∣
μ
;
σ
2
)
p
(
μ
;
μ
0
,
σ
0
2
)
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \propto p\left( x|\mu ;\sigma ^2 \right) p\left( \mu ;\mu _0,\sigma _{0}^{2} \right)
∝p(x∣μ;σ2)p(μ;μ0,σ02)
令似然函数
p
(
x
∣
μ
;
σ
2
)
p\left( x|\mu ;\sigma ^2 \right)
p(x∣μ;σ2)为高斯密度函数,对后验分布取对数得:
∝
log
p
(
x
∣
μ
;
σ
2
)
+
log
p
(
μ
;
μ
0
,
σ
0
2
)
\propto \log p\left( x|\mu ;\sigma ^2 \right) +\log p\left( \mu ;\mu _0,\sigma _{0}^{2} \right)
∝logp(x∣μ;σ2)+logp(μ;μ0,σ02)
∝
−
1
2
σ
2
∑
n
=
1
N
(
x
(
n
)
−
μ
)
2
−
1
2
σ
0
2
(
μ
−
μ
0
)
2
\propto -\frac{1}{2\sigma ^2}\sum_{n=1}^N{\left( x^{\left( n \right)}-\mu \right)}^2-\frac{1}{2\sigma _{0}^{2}}\left( \mu -\mu _0 \right) ^2
∝−2σ21n=1∑N(x(n)−μ)2−2σ021(μ−μ0)2
对上式对
μ
\mu
μ求偏导并令其为零得:
μ
=
1
σ
2
∑
n
=
1
N
x
(
n
)
+
μ
0
σ
0
2
1
σ
0
2
+
N
σ
2
\mu =\frac{\frac{1}{\sigma ^2}\sum_{n=1}^N{x^{\left( n \right)}}+\frac{\mu _0}{\sigma _{0}^{2}}}{\frac{1}{\sigma _{0}^{2}}+\frac{N}{\sigma ^2}}
μ=σ021+σ2Nσ21∑n=1Nx(n)+σ02μ0
2-7 问题
在习题2-6中,证明当 N → ∞ N\rightarrow \infty N→∞时,最大后验估计趋向于最大似然估计。
解析
这道题目初看到的时候是真的没有解题的思路,这里我们从2-6推导出来的结果来入手看一看能否找到它们之间的关系。
μ
M
A
P
=
1
σ
2
∑
n
=
1
N
x
(
n
)
+
μ
0
σ
0
2
1
σ
0
2
+
N
σ
2
\mu ^{MAP}=\frac{\frac{1}{\sigma ^2}\sum_{n=1}^N{x^{\left( n \right)}}+\frac{\mu _0}{\sigma _{0}^{2}}}{\frac{1}{\sigma _{0}^{2}}+\frac{N}{\sigma ^2}}
μMAP=σ021+σ2Nσ21∑n=1Nx(n)+σ02μ0
μ
M
L
E
=
1
N
∑
n
=
1
N
x
(
n
)
\mu^{MLE} =\frac{1}{N}\sum_{n=1}^N{x^{\left( n \right)}}
μMLE=N1n=1∑Nx(n)
这里对
μ
M
L
E
\mu^{MLE}
μMLE的式子进行化简得到如下:
μ
M
A
P
=
σ
0
2
∑
n
=
1
N
x
(
n
)
+
(
σ
2
μ
0
)
σ
0
2
N
+
σ
2
\mu ^{MAP}=\frac{\sigma _{0}^{2}\sum_{n=1}^N{x^{\left( n \right)}}+\left( \sigma ^2\mu _0 \right)}{\sigma _{0}^{2}N+\sigma ^2}
μMAP=σ02N+σ2σ02∑n=1Nx(n)+(σ2μ0)
当
N
→
∞
N\rightarrow \infty
N→∞时
σ
2
\sigma^2
σ2,
μ
\mu
μ,
σ
0
2
\sigma _{0}^{2}
σ02,
μ
0
\mu_0
μ0相对于
N
N
N来讲显得有点微不足道了。所以上式我们可以近似化成如下式:
μ
M
A
P
≈
σ
0
2
∑
n
=
1
N
x
(
n
)
σ
0
2
N
=
∑
n
=
1
N
x
(
n
)
N
\mu ^{MAP}\approx \frac{\sigma _{0}^{2}\sum_{n=1}^N{x^{\left( n \right)}}}{\sigma _{0}^{2}N}=\frac{\sum_{n=1}^N{x^{\left( n \right)}}}{N}
μMAP≈σ02Nσ02∑n=1Nx(n)=N∑n=1Nx(n)
即为最大似然估计的结果。
这里也就验证了在数据样本过大的时候,先验概率的参数对模型估计的参数影响忽略不计。