【机器学习系列】EM算法第二讲：由条件概率公式推导EM算法

最新推荐文章于 2022-01-18 16:47:09 发布

CHEONG_KG

最新推荐文章于 2022-01-18 16:47:09 发布

阅读量549

点赞数 1

分类专栏：机器学习文章标签：机器学习算法 EM算法条件概率

本文链接：https://blog.csdn.net/feilong_csdn/article/details/117188219

版权

机器学习专栏收录该内容

44 篇文章 36 订阅

订阅专栏

作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

阅读本文之前，首先注意以下两点：

1、机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2、文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号后回复：EM算法第二讲，本文主要介绍如何通过条件概率公式推导出EM算法的优化公式。

一、EM算法解决的问题

通俗些说，EM算法就是求含有隐变量 $z$ 的概率模型 $p(x,z|\theta)$ 中的参数 $\theta$ 。对于求参数问题我们很容易想到最大似然估计法MLE，但MLE是针对比较简单的概率模型 $p(x|\theta)$ 可直接使用MLE求出参数的解析解，MLE参数最大化公式所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dyi9RBbP-1621735935178)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image010.png)]

对于含有隐变量的概率模型 $p(x,z|\theta)$ ，隐变量 $z$ 的概率分布是未知的，无法使用MLE求出解析解，因此使用EM算法来求解参数的近似解。对于概率密度 $p(x,z|\theta)$ 参数求解公式如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mSXZYUVJ-1621735935188)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image012.png)]

二、由条件概率公式推导EM算法

首先最大似然估计MLE优化公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5sjUfueq-1621735935197)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image014.png)]

Observed Data： $X$

Unobserved Data（Latent Variable）： $Z$

Complete Data： $X, Z$

Parameter： $\theta$

EM算法优化公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8vxekYsq-1621735935202)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]

E-Step求 $logp(X,Z|\theta)$ 关于后验 $logp(X|Z,\theta^t)$ 的期望：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t3rIHdpg-1621735935207)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image030.png)]

M-Step最大化期望值更新参数：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XSRA2OiF-1621735935214)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image032.png)]

下面通过推导证明为什么EM算法的E-Step和M-Step采用上述的公式

在这里插入图片描述

将上面等式的左边和右边分别对 $q (z)$ 求积分：

在这里插入图片描述

其中前半部分是Evidence Lower Bound，简称为ELBO：

在这里插入图片描述

后半部分是概率 $p$ 和 $q$ 的相对熵：

在这里插入图片描述

因此有：

在这里插入图片描述

因为当数据给定的情况下，左边 $l o g p (x)$ 是定值，即 $E L B O + K L (q ∣ ∣ p)$ 是一个定值，而其中 $K L (q ∣ ∣ p)$ 是大于等于0的，而EM算法的优化目标是使 $logp(x|\theta)$ 取到最大值：

在这里插入图片描述

为了使得 $logp(x|\theta)$ 取到最大值，我们需要最大化 $E L B O$ ，最小化 $K L (q ∣ ∣ p)$ ，首先为了最小化KL相对熵，当 $q (z)$ 和 $p(z|x,\theta)$ 概率分布相同时 $K L (q ∣ ∣ p) = 0$ 取值最小，即：

在这里插入图片描述

在已知 $q (z)$ 取值后，接下来最大化 $E L B O$ ：

在这里插入图片描述

而其中 $p(z|x,\theta^t) \cdot logp(z|x,\theta^t)$ 不是 $\theta$ 的函数，与 $\theta$ 无关，所以可以简化上述优化公式为：

在这里插入图片描述

至此可以看出，上面就是EM算法的优化公式，我们也由此从简单的贝叶斯公式推导出了EM算法的优化公式。

在这里插入图片描述

解释：上图展示了EM算法参数更新的过程，在E-Step求期望即图中蓝线，在M-Step最大化期望逼近原函数，通过E-Step和M-Step不断迭代，最终求出最优的参数值。

三、往期精彩

【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战，看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇：最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码

原稿获取请关注公众号后回复：EM算法第二讲，原创不易，有用就点个赞呀！

CHEONG_KG

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录