机器学习笔记之EM算法(三)隐变量与EM算法的本质

最新推荐文章于 2024-01-26 19:24:10 发布

静静的喝酒

最新推荐文章于 2024-01-26 19:24:10 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签： EM算法本质概率生成模型隐变量的本质算法机器学习

本文链接：https://blog.csdn.net/qq_34758157/article/details/126740542

版权

本文深入探讨了EM算法在机器学习中的应用，特别是它如何处理隐变量问题。EM算法通过E步和M步迭代优化模型参数，适用于概率生成模型的求解，如高斯判别分析和高斯混合模型。引入隐变量能够简化复杂数据分布的求解，提高模型的拟合效果。

摘要由CSDN通过智能技术生成

机器学习笔记之EM算法——隐变量与EM算法的本质

引言

引言

上一节介绍了EM算法公式的导出过程，本节将重新回顾EM算法，比对各模型的求解方式，并探究引入隐变量与EM算法的本质。

回顾：EM算法

从性质上介绍EM算法

EM算法本质上是一种算法，它的目标是通过求解参数 $\theta$ ，将概率模型 $P(\mathcal X \mid \theta)$ 表示出来。
和EM算法具有 相似性质 的如：极大似然估计(MLE)，最大后验概率估计(MAP)：
$\hat \theta_{MLE} = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) \\ \hat \theta_{MAP} \propto \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)P(\theta)$

和上述两种方法不同的是，EM算法并没有求解析解，而是迭代解：
与其说是求解，不如说是对求解过程中‘对解进行优化’。相似方法的有‘梯度下降’~
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
通过EM算法的收敛性证明，可以推导出EM算法在迭代过程中可以对模型参数的解 $\theta$ 进行优化，从而达到一个至少是局部最优的解：
$\log P(\mathcal X \mid \theta^{(t+1)}) \geq \log P(\mathcal X \mid \theta^{(t)})$

其他概念回顾

由于EM算法的算法性质，自然和之前介绍的其他概念存在明显区分：

线性回归

例如之前介绍的很多概念如：线性回归，它的模型只是一个线性函数：
$f(\mathcal W,b) = \mathcal W^{T}\mathcal X + b$
基于该模型，如何通过求解模型参数 $\mathcal W,b$ 来实现回归任务？因此介绍一种求解模型参数 $\mathcal W,b$ 的工具：最小二乘估计：
$\mathcal L(\mathcal W,b) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} + b - y^{(i)}|| \quad (x^{(i)},y^{(i)}) \in Data$