【机器学习系列】EM算法第二讲:由条件概率公式推导EM算法


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱


阅读本文之前,首先注意以下两点:

1、机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2、文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号后回复:EM算法第二讲,本文主要介绍如何通过条件概率公式推导出EM算法的优化公式。



一、EM算法解决的问题


通俗些说,EM算法就是求含有隐变量 z z z的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ)中的参数 θ \theta θ。对于求参数问题我们很容易想到最大似然估计法MLE,但MLE是针对比较简单的概率模型 p ( x ∣ θ ) p(x|\theta) p(xθ)可直接使用MLE求出参数的解析解,MLE参数最大化公式所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dyi9RBbP-1621735935178)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]

对于含有隐变量的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ),隐变量 z z z的概率分布是未知的,无法使用MLE求出解析解,因此使用EM算法来求解参数的近似解。对于概率密度 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ)参数求解公式如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mSXZYUVJ-1621735935188)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image012.png)]



二、由条件概率公式推导EM算法


首先最大似然估计MLE优化公式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5sjUfueq-1621735935197)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]

Observed Data: X X X

Unobserved Data(Latent Variable): Z Z Z

Complete Data: X , Z X,Z X,Z

Parameter: θ \theta θ

EM算法优化公式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8vxekYsq-1621735935202)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]

E-Step求 l o g p ( X , Z ∣ θ ) logp(X,Z|\theta) logp(X,Zθ)关于后验 l o g p ( X ∣ Z , θ t ) logp(X|Z,\theta^t) logp(XZ,θt)的期望:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t3rIHdpg-1621735935207)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]

M-Step最大化期望值更新参数:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XSRA2OiF-1621735935214)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image032.png)]

下面通过推导证明为什么EM算法的E-Step和M-Step采用上述的公式

在这里插入图片描述

将上面等式的左边和右边分别对 q ( z ) q(z) q(z)求积分:

在这里插入图片描述

其中前半部分是Evidence Lower Bound,简称为ELBO:

在这里插入图片描述

后半部分是概率 p p p q q q的相对熵:

在这里插入图片描述

因此有:

在这里插入图片描述

因为当数据给定的情况下,左边 l o g p ( x ) logp(x) logp(x)是定值,即 E L B O + K L ( q ∣ ∣ p ) ELBO+KL(q||p) ELBO+KL(qp)是一个定值,而其中 K L ( q ∣ ∣ p ) KL(q||p) KL(qp)是大于等于0的,而EM算法的优化目标是使 l o g p ( x ∣ θ ) logp(x|\theta) logp(xθ)取到最大值:

在这里插入图片描述

为了使得 l o g p ( x ∣ θ ) logp(x|\theta) logp(xθ)取到最大值,我们需要最大化 E L B O ELBO ELBO,最小化 K L ( q ∣ ∣ p ) KL(q||p) KL(qp),首先为了最小化KL相对熵,当 q ( z ) q(z) q(z) p ( z ∣ x , θ ) p(z|x,\theta) p(zx,θ)概率分布相同时 K L ( q ∣ ∣ p ) = 0 KL(q||p)=0 KL(qp)=0取值最小,即:

在这里插入图片描述

在已知 q ( z ) q(z) q(z)取值后,接下来最大化 E L B O ELBO ELBO

在这里插入图片描述

而其中 p ( z ∣ x , θ t ) ⋅ l o g p ( z ∣ x , θ t ) p(z|x,\theta^t) \cdot logp(z|x,\theta^t) p(zx,θt)logp(zx,θt)不是 θ \theta θ的函数,与 θ \theta θ无关,所以可以简化上述优化公式为:

在这里插入图片描述

至此可以看出,上面就是EM算法的优化公式,我们也由此从简单的贝叶斯公式推导出了EM算法的优化公式。

在这里插入图片描述

解释:上图展示了EM算法参数更新的过程,在E-Step求期望即图中蓝线,在M-Step最大化期望逼近原函数,通过E-Step和M-Step不断迭代,最终求出最优的参数值。



三、往期精彩


【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战,看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇:最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码


原稿获取请关注公众号后回复:EM算法第二讲,原创不易,有用就点个赞呀!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值