机器学习-白板推导系列笔记（十）-EM算法

最新推荐文章于 2021-07-22 13:12:56 发布

及时行樂_

最新推荐文章于 2021-07-22 13:12:56 发布

阅读量742

点赞数 2

分类专栏：哔站机器学习白板推导文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41485273/article/details/111597370

版权

本文详细介绍了EM算法，包括其简介、收敛性证明、算法导出、广义EM及变种。通过Jensen不等式和KL散度证明了EM算法的收敛性，阐述了在机器学习中解决隐变量问题的应用。

摘要由CSDN通过智能技术生成

此文章主要是结合哔站shuhuai008大佬的白板推导视频：EM_100min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、EM算法简介

假设有如下数据：

$X$ :observed data
$Z$ :unobserved data(latent variable)
$(X, Z)$ :complete data
$\theta$ :parameter

EM算法的目的是解决具有隐变量的参数估计（MLE、MAP）问题。EM算法是一种迭代更新的算法，其计算公式为：

$\theta ^{t+1}=E_{z|x,\theta^{t}}[log\; p(x,z|\theta )]\\ =\underset{\theta }{argmax}\int _{z}log\; p(x,z|\theta )\cdot p(z|x,\theta ^{t})\mathrm{d}z$

这个公式包含了迭代的两步：

①E-Step：计算 $p(x,z|\theta )$ 在概率分布 $p(z|x,\theta ^{t})$ 下的期望
②S-Step：计算使这个期望最大化的参数得到下一个EM步骤的输入

二、收敛性证明

现在要证明迭代求得的 $\theta ^{t}$ 序列会使得对应的 $p(x|\theta ^{t})$ 是单调递增的，也就是说要证明 $p(x|\theta ^{t})\leq p(x|\theta ^{t+1})$ 。首先我们有：

$log\; p(x|\theta )=log\; p(x,z|\theta )-log\; p(z|x,\theta )$

接下来等式两边同时求关于 $p(z|x,\theta ^{t})$ 的期望：

$左边=\int _{z}p(z|x,\theta ^{t})\cdot log\; p(x|\theta )\mathrm{d}z\\ =log\; p(x|\theta )\int _{z}p(z|x,\theta ^{t})\mathrm{d}z\\ =log\; p(x|\theta )\\ 右边=\underset{Q(\theta ,\theta ^{t})}{\underbrace{\int _{z}p(z|x,\theta ^{t})\cdot p(x,z|\theta )\mathrm{d}z}}-\underset{H(\theta ,\theta ^{t})}{\underbrace{\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta )\mathrm{d}z}}$

因此有：

$log\; p(x|\theta )=\int _{z}p(z|x,\theta ^{t})\cdot p(x,z|\theta )\mathrm{d}z-\int _{z}p(z|x,\theta ^{t})\cdot log\; p(z|x,\theta )\mathrm{d}z$

这里我们定义了 $Q(\theta ,\theta ^{t})$ ，称为 $Q$ 函数（ $Q$ function），这个函数也就是上面的概述中迭代公式里用到的函数，因此满足 $Q(\theta ^{t+1},\theta ^{t})\geq Q(\theta ^{t},\theta ^{t})$ 。

接下来将上面的等式两边 $\theta$ 分别取 $\theta ^{t}$ 和 $\theta ^{t+1}$ 并相减：

$log\; p(x|\theta ^{t+1})-log\; p(x|\theta ^{t})=[Q(\theta ^{t+1},\theta ^{t})-Q(\theta ^{t},\theta ^{t})]-[H(\theta ^{t+1},\theta ^{t})-H(\theta ^{t},\theta ^{t})]$

我们需要证明 $log\; p(x|\theta ^{t+1})-log\; p(x|\theta ^{t})\geq 0$ ，同时已知 $Q(\theta ^{t+1},\theta ^{t})-Q(\theta ^{t},\theta ^{t})\geq 0$ ，现在来观察 $H(\theta ^{t+1},\theta ^{t})-H(\theta ^{t},\theta ^{t})$

最低0.47元/天解锁文章

及时行樂_

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习-白板推导系列笔记（十）-EM算法

此文章主要是结合哔站shuhuai008大佬的白板推导视频：EM_100min一、EM算法简介假设有如下数据：XXX:observed dataZZZ:unobserved data(latent variable)(X,Z)(X,Z)(X,Z):complete dataθ\thetaθ:parameterEM算法的目的是解决具有隐变量的参数估计（MLE、MAP）问题。EM算法是一种迭代更新的算法，其计算公式为：θt+1=Ez∣x,θt[log p(x,z∣θ)]=argmaxθ∫
复制链接

扫一扫

专栏目录