【机器学习】EM算法（Expectation-Maximization算法）详解

最新推荐文章于 2024-10-09 22:16:23 发布

WiIsonEdwards

最新推荐文章于 2024-10-09 22:16:23 发布

阅读量2.4k

点赞数 19

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/m0_53700832/article/details/140542613

版权

EM算法（Expectation-Maximization算法）是一种用于处理不完全数据或带有隐藏变量的统计模型的优化算法。为了更好地理解它，可以将其类比为一个反复猜测和改进的过程。

0.举个简单的例子

假设你是一名厨师，有两种巧克力酱：黑巧克力和白巧克力。你拿到了一批混合巧克力酱的样本，但你不知道每一勺巧克力酱里包含多少黑巧克力和白巧克力。你的目标是估计出这两种巧克力酱的比例。

初始猜测：
你先随便猜测黑巧克力和白巧克力的比例，比如50%黑巧克力和50%白巧克力。
E步：
根据你的初始猜测，你估计每一勺混合巧克力酱里有多少是黑巧克力，多少是白巧克力。
M步：
根据你在E步的估计，重新计算黑巧克力和白巧克力的比例，更新你的猜测。
迭代：
你不断重复上述步骤，每次根据新的比例估计混合巧克力酱的成分，再根据新的估计调整比例。经过几轮迭代后，你会发现你的比例猜测越来越准确，最终得到一个比较接近实际的比例。

总结

EM算法就是在不断猜测和改进的过程中，逐步优化模型参数，使其更好地解释数据。在处理带有隐藏变量或不完全数据的问题时，它是一个非常有效的工具。

1.预备知识

1.1 Jensen不等式

Jensen不等式是一种在凸函数和凹函数理论中具有重要作用的不等式。它表明，对于一个凸函数，函数值的期望大于等于期望的函数值。相反，对于凹函数，函数值的期望小于等于期望的函数值。

Jensen不等式的形式

对于凸函数

设 $f$ 是一个定义在实数集上的凸函数， $X$ 是一个随机变量，那么：

$f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)]$

对于凹函数

如果 $f$ 是凹函数，则不等式的方向相反：

$f(\mathbb{E}[X]) \geq \mathbb{E}[f(X)]$

凸函数的定义

一个函数 $f$ 被称为凸函数，如果对于任意的 $x_1, x_2$ 和 $\lambda \in [0, 1]$ ，有：

$f(\lambda x_1 + (1-\lambda) x_2) \leq \lambda f(x_1) + (1-\lambda) f(x_2)$

这意味着在其定义域内，连接函数图上任意两点的线段都在函数图像之上。

Jensen不等式的直观理解

Jensen不等式可以通过一个简单的几何图形来理解。对于一个凸函数，函数图像在连接任意两点的线段的上方，这使得函数在这些点上的值的加权平均（期望）总是大于或等于在这些点加权平均值（期望）处的函数值。

应用示例

示例1：对数函数的应用

假设我们有一组正数 $x_1, x_2, \ldots, x_n$ ，并且我们定义 $\log(x)$ 作为凹函数。那么，Jensen不等式给出：

$\log\left(\frac{1}{n} \sum_{i=1}^n x_i\right) \geq \frac{1}{n} \sum_{i=1}^n \log(x_i)$

这表明几何平均数小于或等于算术平均数的对数。

示例2：EM算法中的应用

在EM算法中，我们通过Jensen不等式来处理对数似然函数的最大化问题。考虑对数似然函数：

$\log p(\mathbf{X} | \theta) = \log \sum_{\mathbf{Z}} p(\mathbf{X}, \mathbf{Z} | \theta)$

由于对数函数是凹函数，利用Jensen不等式可以得到：

$\log p(\mathbf{X} | \theta) \geq \sum_{\mathbf{Z}} q(\mathbf{Z}) \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})}$

这为我们提供了一个下界，使得我们可以在每一步迭代中最大化这个下界（即ELBO），从而间接最大化对数似然函数。

总结

Jensen不等式是一个强有力的工具，在许多领域中都有广泛的应用，包括概率论、统计学和信息论。在EM算法中，Jensen不等式的应用使得我们能够处理复杂的似然函数，迭代地优化模型参数，从而更好地解释数据。

1.2 KL散度

EM算法和KL散度（Kullback-Leibler Divergence）之间有密切的关系。在EM算法中，KL散度用于解释为什么该算法在每次迭代中都会增加似然函数，并最终收敛到一个局部最大值。以下是对这两者关系的详细解释。

KL散度简介

KL散度是用于衡量两个概率分布之间差异的非对称度量。对于两个概率分布 $P$ 和 $Q$ ，其定义为：
$D_{KL}(P \| Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}$

KL散度度量了分布 $Q$ 从分布 $P$ 期望值的偏离程度。它总是非负的，并且当且仅当 $P = Q$ 时为零。

EM算法中的KL散度

在EM算法中，我们试图最大化不完全数据的对数似然函数 $\log p(\mathbf{X} | \theta)$ 。由于直接优化这个对数似然函数是困难的，EM算法通过引入一个关于隐藏变量的概率分布 $q(\mathbf{Z})$ ，转而优化一个更易处理的目标函数。这就涉及到了KL散度。

Jensen不等式和变分推断

考虑观测数据 $\mathbf{X}$ 和隐藏数据 $\mathbf{Z}$ 的联合分布 $p(\mathbf{X}, \mathbf{Z} | \theta)$ ，我们有：

$\log p(\mathbf{X} | \theta) = \log \sum_{\mathbf{Z}} p(\mathbf{X}, \mathbf{Z} | \theta)$

由于对数函数的凹性，利用Jensen不等式，可以得到：

$\log p(\mathbf{X} | \theta) \geq \sum_{\mathbf{Z}} q(\mathbf{Z}) \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})}$

右边的表达式被称为下界（Evidence Lower Bound, ELBO），其形式为：

$\mathcal{L}(q, \theta) = \mathbb{E}_{q(\mathbf{Z})} [\log p(\mathbf{X}, \mathbf{Z} | \theta)] - \mathbb{E}_{q(\mathbf{Z})} [\log q(\mathbf{Z})]$

这可以拆分成两部分：

$\mathcal{L}(q, \theta) = \sum_{\mathbf{Z}} q(\mathbf{Z}) \log p(\mathbf{X}, \mathbf{Z} | \theta) - \sum_{\mathbf{Z}} q(\mathbf{Z}) \log q(\mathbf{Z})$

EM算法的步骤解释

E步（期望步）：
在这一步，我们选择使得KL散度最小的 $q(\mathbf{Z})$ ，即 $q(\mathbf{Z}) = p(\mathbf{Z} | \mathbf{X}, \theta^{(t)})$ 。因此，ELBO达到最大值，因为这使得 $q(\mathbf{Z})$ 充分接近于 $p(\mathbf{Z} | \mathbf{X}, \theta)$ 。
M步（最大化步）：
通过固定 $q(\mathbf{Z})$ ，我们最大化ELBO $\mathcal{L}(q, \theta)$ ，从而更新参数 $\theta$ 。

KL散度在EM算法中的作用

在EM算法的每个迭代步骤中，E步通过最小化KL散度使得当前估计的隐藏变量分布 $q(\mathbf{Z})$ 接近真实的后验分布 $p(\mathbf{Z} | \mathbf{X}, \theta)$ 。M步通过最大化期望对数似然来更新参数，从而使得模型的对数似然函数不断增加。由于KL散度的非负性，这种迭代方式保证了似然函数不会减少，最终收敛到局部最优解。

直观理解

你可以将EM算法想象成一种“猜测-改进”过程：

E步：根据当前参数，猜测隐藏变量的分布，使得猜测尽可能符合观测数据和当前模型（即最小化KL散度）。
M步：根据最新的猜测，调整模型参数，使得模型更好地解释所有数据（即最大化对数似然）。

结论

通过上述步骤，EM算法利用KL散度的性质，在每次迭代中不断改进模型参数，使得模型逐渐趋于最优。这种方法在处理带有隐藏变量或不完全数据的问题时，特别有效。

2.EM算法详解

EM算法（Expectation-Maximization）用于含有隐藏变量的概率模型参数估计。让我们详细解释这两步的具体操作和它们在算法中的作用。

EM算法步骤详细解释

EM算法通过不断迭代两个步骤（E步和M步），来优化模型参数，使得对数似然函数最大化。

E步（Expectation Step）

目标：计算隐藏变量的期望值。

在E步中，我们利用当前参数 $\theta^{(t)}$ 计算隐藏变量的后验分布 $q(\mathbf{Z})$ ，即 $q(\mathbf{Z}) = p(\mathbf{Z} | \mathbf{X}, \theta^{(t)})$ 。这一步的目的是估计在给定观测数据 $\mathbf{X}$ 和当前参数 $\theta^{(t)}$ 下，隐藏变量 $\mathbf{Z}$ 的概率分布。

具体操作如下：

计算后验分布：
根据贝叶斯定理，我们计算隐藏变量的后验分布：

$q(\mathbf{Z}) = p(\mathbf{Z} | \mathbf{X}, \theta^{(t)}) = \frac{p(\mathbf{X}, \mathbf{Z} | \theta^{(t)})}{p(\mathbf{X} | \theta^{(t)})}$

由于 $p(\mathbf{X} | \theta^{(t)})$ 是一个常数，对后验分布进行归一化即可。
期望计算：
计算包含隐藏变量的对数似然的期望：

$Q(\theta, \theta^{(t)}) = \mathbb{E}_{\mathbf{Z} | \mathbf{X}, \theta^{(t)}}[\log p(\mathbf{X}, \mathbf{Z} | \theta)] = \sum_{\mathbf{Z}} p(\mathbf{Z} | \mathbf{X}, \theta^{(t)}) \log p(\mathbf{X}, \mathbf{Z} | \theta)$

这个期望是E步的主要计算内容，用于后续M步的参数更新。