作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
阅读本文之前,首先注意以下两点:
1、机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。
2、文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号后回复:EM算法第二讲,本文主要介绍如何通过条件概率公式推导出EM算法的优化公式。
一、EM算法解决的问题
通俗些说,EM算法就是求含有隐变量 z z z的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)中的参数 θ \theta θ。对于求参数问题我们很容易想到最大似然估计法MLE,但MLE是针对比较简单的概率模型 p ( x ∣ θ ) p(x|\theta) p(x∣θ)可直接使用MLE求出参数的解析解,MLE参数最大化公式所示:
对于含有隐变量的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ),隐变量 z z z的概率分布是未知的,无法使用MLE求出解析解,因此使用EM算法来求解参数的近似解。对于概率密度 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)参数求解公式如下:
二、由条件概率公式推导EM算法
首先最大似然估计MLE优化公式:
Observed Data: X X X
Unobserved Data(Latent Variable): Z Z Z
Complete Data: X , Z X,Z X,Z
Parameter: θ \theta θ
EM算法优化公式:
E-Step求 l o g p ( X , Z ∣ θ ) logp(X,Z|\theta) logp(X,Z∣θ)关于后验 l o g p ( X ∣ Z , θ t ) logp(X|Z,\theta^t) logp(X∣Z,θt)的期望:
M-Step最大化期望值更新参数:
下面通过推导证明为什么EM算法的E-Step和M-Step采用上述的公式
将上面等式的左边和右边分别对 q ( z ) q(z) q(z)求积分:
其中前半部分是Evidence Lower Bound,简称为ELBO:
后半部分是概率 p p p和 q q q的相对熵:
因此有:
因为当数据给定的情况下,左边 l o g p ( x ) logp(x) logp(x)是定值,即 E L B O + K L ( q ∣ ∣ p ) ELBO+KL(q||p) ELBO+KL(q∣∣p)是一个定值,而其中 K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p)是大于等于0的,而EM算法的优化目标是使 l o g p ( x ∣ θ ) logp(x|\theta) logp(x∣θ)取到最大值:
为了使得 l o g p ( x ∣ θ ) logp(x|\theta) logp(x∣θ)取到最大值,我们需要最大化 E L B O ELBO ELBO,最小化 K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p),首先为了最小化KL相对熵,当 q ( z ) q(z) q(z)和 p ( z ∣ x , θ ) p(z|x,\theta) p(z∣x,θ)概率分布相同时 K L ( q ∣ ∣ p ) = 0 KL(q||p)=0 KL(q∣∣p)=0取值最小,即:
在已知 q ( z ) q(z) q(z)取值后,接下来最大化 E L B O ELBO ELBO:
而其中 p ( z ∣ x , θ t ) ⋅ l o g p ( z ∣ x , θ t ) p(z|x,\theta^t) \cdot logp(z|x,\theta^t) p(z∣x,θt)⋅logp(z∣x,θt)不是 θ \theta θ的函数,与 θ \theta θ无关,所以可以简化上述优化公式为:
至此可以看出,上面就是EM算法的优化公式,我们也由此从简单的贝叶斯公式推导出了EM算法的优化公式。
解释:上图展示了EM算法参数更新的过程,在E-Step求期望即图中蓝线,在M-Step最大化期望逼近原函数,通过E-Step和M-Step不断迭代,最终求出最优的参数值。
三、往期精彩
【知识图谱系列】探索DeepGNN中Over-Smoothing问题
【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲
【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读
Transformer模型细节理解及Tensorflow实现
GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递
Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码
原稿获取请关注公众号后回复:EM算法第二讲,原创不易,有用就点个赞呀!