习题2-6和习题2-7

2-6 问题

假设有N个样本 x ( 1 ) , x ( 2 ) ⋅ ⋅ ⋅ ⋅ ⋅ x ( N ) x^{(1)},x^{(2)}·····x^{(N)} x(1),x(2)x(N)服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),其中 μ \mu μ未知,

(1)使用最大似然估计来求解最优参数 μ M L \mu^{ML} μML
(2)若参数 μ \mu μ为随机变量,并服从正态分布 N ( μ 0 , σ 0 2 ) N(\mu_0,\sigma^2_0) N(μ0,σ02),使用最大后验估计来计算求解最优参数 μ M A P \mu^{MAP} μMAP

解析

(1) x x x服从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的高斯分布: p ( x ; μ , σ 2 ) = 1 2 π σ e ( − ( x − μ ) 2 2 σ 2 ) p\left( x;\mu ,\sigma ^2 \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{\left( -\frac{\left( x-\mu \right) ^2}{2\sigma ^2} \right)} p(x;μ,σ2)=2π σ1e(2σ2(xμ)2),参数 μ \mu μ在样本 X X X上的似然函数为 p ( x ∣ μ , σ 2 ) = ∏ n = 1 N p ( x ( n ) ; μ , σ 2 ) = ∏ n = 1 N N ( x ( n ) ; μ , σ 2 ) p\left( x|\mu ,\sigma ^2 \right) =\prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\prod_{n=1}^N{N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)} p(xμ,σ2)=n=1Np(x(n);μ,σ2)=n=1NN(x(n);μ,σ2)
为了方便计算,随似然函数取对数得到对数似然函数 log ⁡ p ( x ∣ μ , σ 2 ) = log ⁡ ∏ n = 1 N p ( x ( n ) ; μ , σ 2 ) = ∑ n = 1 N log ⁡ N ( x ( n ) ; μ , σ 2 ) \log p\left( x|\mu ,\sigma ^2 \right) =\log \prod_{n=1}^N{p\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)}=\sum_{n=1}^N{\log N\left( x^{\left( n \right)};\mu ,\sigma ^2 \right)} logp(xμ,σ2)=logn=1Np(x(n);μ,σ2)=n=1NlogN(x(n);μ,σ2)
               = log ⁡ e 2 π σ ∑ n = 1 N − ( x ( n ) − μ ) 2 2 σ 2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\log \frac{e}{\sqrt{2\pi}\sigma}\sum_{n=1}^N{-\frac{\left( x^{\left( n \right)}-\mu \right) ^2}{2\sigma ^2}}               =log2π σen=1N2σ2(x(n)μ)2
上式函数对 μ \mu μ求导并令其为零得到下结果:

∑ n = 1 N − x ( n ) − μ σ 2 = 0 \sum_{n=1}^N{-\frac{x^{\left( n \right)}-\mu}{\sigma ^2}}=0 n=1Nσ2x(n)μ=0
我们要想找到的是一组 μ \mu μ使得似然函数最大,等价于对数似然函数最大。上式求解得到如下结果: μ = 1 N ∑ n = 1 N x ( n ) \mu =\frac{1}{N}\sum_{n=1}^N{x^{\left( n \right)}} μ=N1n=1Nx(n)
上述的 μ \mu μ为样本均值。
(2)根据题目知参数 μ \mu μ服从正态分布 N ( μ 0 , σ 0 2 ) N\left( \mu _0,\sigma _{0}^{2} \right) N(μ0,σ02)
参数 μ \mu μ的后验分布(Posterior Distribution)为 p ( μ ∣ x ; μ 0 , σ 0 2 ) = p ( μ , x ; μ 0 , σ 0 2 ) ∑ μ p ( μ , x ; μ 0 , σ 0 2 ) p\left( \mu |x;\mu _0,\sigma _{0}^{2} \right) =\frac{p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}{\sum{_{\mu}p\left( \mu ,x;\mu _0,\sigma _{0}^{2} \right)}} p(μx;μ0,σ02)=μp(μ,x;μ0,σ02)p(μ,x;μ0,σ02)
               ∝ p ( x ∣ μ ; σ 2 ) p ( μ ; μ 0 , σ 0 2 ) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \propto p\left( x|\mu ;\sigma ^2 \right) p\left( \mu ;\mu _0,\sigma _{0}^{2} \right)               p(xμ;σ2)p(μ;μ0,σ02)
令似然函数 p ( x ∣ μ ; σ 2 ) p\left( x|\mu ;\sigma ^2 \right) p(xμ;σ2)为高斯密度函数,对后验分布取对数得: ∝ log ⁡ p ( x ∣ μ ; σ 2 ) + log ⁡ p ( μ ; μ 0 , σ 0 2 ) \propto \log p\left( x|\mu ;\sigma ^2 \right) +\log p\left( \mu ;\mu _0,\sigma _{0}^{2} \right) logp(xμ;σ2)+logp(μ;μ0,σ02)
∝ − 1 2 σ 2 ∑ n = 1 N ( x ( n ) − μ ) 2 − 1 2 σ 0 2 ( μ − μ 0 ) 2 \propto -\frac{1}{2\sigma ^2}\sum_{n=1}^N{\left( x^{\left( n \right)}-\mu \right)}^2-\frac{1}{2\sigma _{0}^{2}}\left( \mu -\mu _0 \right) ^2 2σ21n=1N(x(n)μ)22σ021(μμ0)2
对上式对 μ \mu μ求偏导并令其为零得: μ = 1 σ 2 ∑ n = 1 N x ( n ) + μ 0 σ 0 2 1 σ 0 2 + N σ 2 \mu =\frac{\frac{1}{\sigma ^2}\sum_{n=1}^N{x^{\left( n \right)}}+\frac{\mu _0}{\sigma _{0}^{2}}}{\frac{1}{\sigma _{0}^{2}}+\frac{N}{\sigma ^2}} μ=σ021+σ2Nσ21n=1Nx(n)+σ02μ0

2-7 问题

在习题2-6中,证明当 N → ∞ N\rightarrow \infty N时,最大后验估计趋向于最大似然估计。

解析

这道题目初看到的时候是真的没有解题的思路,这里我们从2-6推导出来的结果来入手看一看能否找到它们之间的关系。

μ M A P = 1 σ 2 ∑ n = 1 N x ( n ) + μ 0 σ 0 2 1 σ 0 2 + N σ 2 \mu ^{MAP}=\frac{\frac{1}{\sigma ^2}\sum_{n=1}^N{x^{\left( n \right)}}+\frac{\mu _0}{\sigma _{0}^{2}}}{\frac{1}{\sigma _{0}^{2}}+\frac{N}{\sigma ^2}} μMAP=σ021+σ2Nσ21n=1Nx(n)+σ02μ0
μ M L E = 1 N ∑ n = 1 N x ( n ) \mu^{MLE} =\frac{1}{N}\sum_{n=1}^N{x^{\left( n \right)}} μMLE=N1n=1Nx(n)
这里对 μ M L E \mu^{MLE} μMLE的式子进行化简得到如下:
μ M A P = σ 0 2 ∑ n = 1 N x ( n ) + ( σ 2 μ 0 ) σ 0 2 N + σ 2 \mu ^{MAP}=\frac{\sigma _{0}^{2}\sum_{n=1}^N{x^{\left( n \right)}}+\left( \sigma ^2\mu _0 \right)}{\sigma _{0}^{2}N+\sigma ^2} μMAP=σ02N+σ2σ02n=1Nx(n)+(σ2μ0)
N → ∞ N\rightarrow \infty N σ 2 \sigma^2 σ2, μ \mu μ, σ 0 2 \sigma _{0}^{2} σ02, μ 0 \mu_0 μ0相对于 N N N来讲显得有点微不足道了。所以上式我们可以近似化成如下式:
μ M A P ≈ σ 0 2 ∑ n = 1 N x ( n ) σ 0 2 N = ∑ n = 1 N x ( n ) N \mu ^{MAP}\approx \frac{\sigma _{0}^{2}\sum_{n=1}^N{x^{\left( n \right)}}}{\sigma _{0}^{2}N}=\frac{\sum_{n=1}^N{x^{\left( n \right)}}}{N} μMAPσ02Nσ02n=1Nx(n)=Nn=1Nx(n)
即为最大似然估计的结果。
这里也就验证了在数据样本过大的时候,先验概率的参数对模型估计的参数影响忽略不计。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值