机器学习笔记之EM算法(四)广义EM

引言

上一节介绍了引入隐变量的本质,本节将狭义EM算法推广至广义EM算法

回顾:引如隐变量与EM算法的本质

引入EM算法本质上是基于频率学派的思想,针对概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)模型参数 θ \theta θ的估计问题
learning 问题。
找到这个最优模型参数 θ ^ \hat \theta θ^的底层逻辑是极大似然估计(Maximum Likelihood Estimate,MLE):
θ ^ = arg ⁡ max ⁡ θ log ⁡ P ( X ∣ θ ) \hat \theta = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) θ^=θargmaxlogP(Xθ)
但通常情况是:如果将 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)看成概率模型,那么该概率模型产生的真实样本 X \mathcal X X过于复杂,导致使用极大似然估计无法有效地求出最优解析解 θ ^ \hat \theta θ^

针对这种情况,我们需要对 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)做出一些假设:假设存在概率模型 P ( Z ) P(\mathcal Z) P(Z)真实样本 X \mathcal X X是以概率模型 P ( Z ) P(\mathcal Z) P(Z)的条件下产生出来的。数学符号表达即:
P ( X ∣ Z ) P(\mathcal X \mid \mathcal Z) P(XZ)
概率图表示为:
请添加图片描述
由于 P ( Z ) P(\mathcal Z) P(Z)人为假设的概率分布,从而可以将原始的概率模型 P ( X ) P(\mathcal X) P(X)转化为关于真实样本 X \mathcal X X,隐变量 Z \mathcal Z Z的混合概率模型 P ( X , Z ) P(\mathcal X,\mathcal Z) P(X,Z):
P ( X , Z ) = P ( X ∣ Z ) P ( Z ) P(\mathcal X,\mathcal Z) = P(\mathcal X \mid \mathcal Z)P(\mathcal Z) P(X,Z)=P(XZ)P(Z)

从而可以通过概率模型 P ( Z ) P(\mathcal Z) P(Z)作为媒介,将复杂的样本分布 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)求解出来
P ( X ) = ∫ Z P ( X , Z ) d Z = E Z [ P ( X , Z ) ] P(\mathcal X) = \int_{\mathcal Z} P(\mathcal X,\mathcal Z)d\mathcal Z = \mathbb E_{\mathcal Z}\left[P(\mathcal X,\mathcal Z)\right] P(X)=ZP(X,Z)dZ=EZ[P(X,Z)]

狭义EM与广义EM

回顾:狭义EM算法

在确立了目标函数 log ⁡ P ( X ∣ θ ) \log P(\mathcal X \mid \theta) logP(Xθ)之后,我们将隐变量 Z \mathcal Z Z引入,对目标函数进行展开
详细的展开过程见传送门,这里就不赘述了。
log ⁡ P ( X ∣ θ ) = log ⁡ P ( X , Z ∣ θ ) − log ⁡ P ( Z ∣ X , θ ) = log ⁡ P ( X , Z ∣ θ ) − log ⁡ Q ( Z ) − [ log ⁡ P ( Z ∣ X , θ ) − log ⁡ Q ( Z ) ] = log ⁡ P ( X , Z ∣ θ ) Q ( Z ) − log ⁡ P ( Z ∣ X , θ ) Q ( Z ) \begin{aligned} \log P(\mathcal X \mid \theta) & = \log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta) \\ & = \log P(\mathcal X,\mathcal Z \mid \theta) - \log \mathcal Q(\mathcal Z) - [\log P(\mathcal Z \mid \mathcal X,\theta) - \log \mathcal Q(\mathcal Z)] \\ & = \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} - \log \frac{P(\mathcal Z \mid \mathcal X,\theta)}{\mathcal Q(\mathcal Z)} \end{aligned} logP(Xθ)=logP(X,Zθ)logP(ZX,θ)=logP(X,Zθ)logQ(Z)[logP(ZX,θ)logQ(Z)]=logQ(Z)P(X,Zθ)logQ(Z)P(ZX,θ)
同时对等式左右两端基于 Q ( Z ) \mathcal Q(\mathcal Z) Q(Z)求解期望
等式左端
E Q ( Z ) [ log ⁡ P ( X ∣ θ ) ] = ∫ Z Q ( Z ) log ⁡ P ( X ∣ θ ) d Z = log ⁡ P ( X ∣ θ ) ∫ Z Q ( Z ) d Z = log ⁡ P ( X ∣ θ ) \begin{aligned} \mathbb E_{\mathcal Q(\mathcal Z)} \left[\log P(\mathcal X \mid \theta)\right] & = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log P(\mathcal X \mid \theta)d\mathcal Z \\ & = \log P(\mathcal X \mid \theta) \int_{\mathcal Z} \mathcal Q(\mathcal Z)d\mathcal Z \\ & = \log P(\mathcal X \mid \theta) \end{aligned} EQ(Z)[logP(Xθ)]=ZQ(Z)logP(Xθ)dZ=logP(Xθ)ZQ(Z)dZ=logP(Xθ)
等式右端
E Q ( Z ) [ log ⁡ P ( X , Z ∣ θ ) Q ( Z ) − log ⁡ P ( Z ∣ X , θ ) Q ( Z ) ] = E Q ( Z ) [ log ⁡ P ( X , Z ∣ θ )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值