em在聊天中是什么意思_EM算法(1)：EM算法的引入与导出

最新推荐文章于 2024-03-21 20:16:15 发布

weixin_39943370

最新推荐文章于 2024-03-21 20:16:15 发布

阅读量127

点赞数

文章标签： em在聊天中是什么意思

本文链接：https://blog.csdn.net/weixin_39943370/article/details/112355301

版权

EM算法是一种用于含有隐变量的概率模型参数估计的迭代方法，包括期望(E)和极大化(M)两个步骤。在每次迭代中，E步计算在当前参数估计下隐变量的条件概率分布，M步则更新参数以最大化期望函数。算法适用于解决观测数据不完全的问题，例如三硬币模型。尽管EM算法可能找到局部最优解，但能保证似然函数在每次迭代中增加。该算法广泛应用于统计学习和机器学习领域。

摘要由CSDN通过智能技术生成

算法是一种迭代算法, 1977 年由 Dempster 等人总结提出，用于含有隐变量(hidden variable) 的概率模型参数的极大似然估计, 或极大后验概率估计。EM 算法的每次迭代由两步组成:

步，求期望 (expectation)

步, 求极大 ( maximization)。所以这一算法称为期望极大算法 ( expectation maximization algorithm)，简称 EM 算法。

EM 算法的引入：三硬币模型

概率模型有时既含有观测变量（observable variable），又含有隐变量或潜在变量 (latent variable)。如果概率模型的变量都是观测变量, 那么给定数据，可以直接用极大似然估计法, 或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。EM 算法就是含有隐变量的概率模型参数的极大似然估计法, 或极大后验概率估计法。我们仅讨论极大似然估计，极大后验概率估计与其类似。

假设有 3 枚硬币，分别记作

。这些硬币正面出现的概率分别是

和

进行如下掷硬币试验:

掷硬币 A，根据其结果选出硬币 B 或硬币 C，正面选硬币 B，反面选硬币
掷根据硬币 A选出的硬币（该次是掷硬币B或C），根据这次掷硬币的结果，出现正面记作
出现反面记作
独立地重复
次试验

这里,

观测结果如下:

假设只能观测到掷硬币的结果，不能观测郑硬币的过程（即我们不知道是掷了硬币B还是掷了硬币C）。问如何估计三硬币模型正面出现的概率，即三个硬币模型的参数。

解：三个硬币模型可以写作

这里, 随机变量

是观测变量，表示一次试验观测的结果是1或 0；随机变量

是隐变量, 表示未观测到的掷硬币

的结果

是模型参数。

注意：随机变量

的数据可以观测，随机变量

的数据不可观测。

将观测数据表示为

未观测数据表示为

即

考虑求模型参数

的极大似然估计，即

这个问题没有解析解，只有通过迭代的方法求解，EM 算法就是可以用于求解这个问题的一种迭代算法。下面给出针对以上问题的 EM 算法，其推导过程省略。

EM 算法首先选取参数的初值, 记作

然后通过下面的步骤迭代计算参数的估计值，直至收政为止。第

次迭代参数的估计值为

EM算法的第

次迭代如下。

步: 计算在模型参数

下观测数据

来自郑硬币

的概率

步：计算模型参数的新估计值

一般地，用

表示观测随机变量的数据，

表示隐随机变量的数据。

和

连在一起称为完全数据(complete data)，观测数据

又称为不完全数据（incomplete data)。假设给定观测数据

其概率分布是

其中

是需要估计的模型参数, 那么不完全数据

的似然函数是

, 对数似然函数

假设

和

的联合概率分布是

, 那么完全数据的对数似然函数是

。

EM 算法通过迭代求

的极大似然估计。每次迭代包含两步, 求期望:

步，求极大化。

EM 算法过程

输入: 观测变量数据

, 隐变量数据

, 联合分布

条件分布

输出：模型参数

(1) 选择参数的初值

开始迭代； (2)

步: 记

为第

次迭代参数

的估计值，在第

次迭代的

步,

这里，

是在给定观测数据

和当前的参数估计

下隐变量数据

的条件概率分布; (3)

步: 求使

极大化的

确定第

次迭代的参数的估计值

(4) 重复第 (2) 步和第 (3) 步，直到收敘。

函数

是 EM算法的核心, 称为

函数

function

。

函数

定义：完全数据的对数似然函数

关于在给定观测数据

和当前参数

下对未观测数据

的条件概率分布

的期望称为

函数，即

关于 EM 算法的几点说明

步骤（1）：参数的初值选择可以是任意的，但需要注意EM算法对初值是敏感的。

步骤（2）：

步求

。

函数中

是未观测数据，

是观测数据。

的第 1 个变元表示要极大化的参数，第 2 个变元表示参数的当前估计值。每次迭代实际在求

函数及其极大。

步骤 (3)：

步求

的极大化, 得到

完成一次迭代

后面将证明每次迭代使似然函数增大或达到局部极值。

步骤 (4)：给出停止迭代的条件, 一般是对较小的正数

若满足

或

则停止迭代。

EM 算法的导出

上面叙述了 EM 算法。为什么 EM 算法能近似实现对观测数据的极大似然估计呢?下面通过近似求解观测数据的对数似然函数的极大化问题来导出 EM 算法，由此可以清楚地看出

算法的作用。

我们面对一个含有隐变量的概率模型，目标是极大化观测数据 (不完全数据)

关于参数

的对数似然函数，即极大化

**注意：**这一极大化的主要困难是式中有未观测数据并有包含和 (或积分) 的对数。

事实上，EM 算法是通过迭代逐步近似极大化

的。假设在第

次迭代后

的估计值是

，我们希望新估计值

能使

增加，并逐步达到极大值。为此，考虑两者的差:

利用 Jensen 不等式 ( Jensen inequality) 得到其下界：

note:

Jensen inequality：

令

则

即函数

是

的一个下界，且从

的定义可知，

因此, 任何可以使

增大的

也可以使

增大。为了使

有尽可能的增大，选择

使

达到极大，即

现在求

的表达式

省去对

的极大化而言是常数的项的部分，则有

此式等价于 EM 算法的一次迭代，即求

函数及其极大化。

EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。下图给出 EM 算法的直观解释。图中上方曲线为

下方曲线为

。

为对数似然函数

的下界。两个函数在点

处相等。EM 算法找到下一个点

使

极大化。这时由于

，函数

的增加，保证对数似然函数

在每次迭代中也是增加的．EM 算法在点

重新计算

函数值，进行下一次迭代．在这个过程中，对数似然函数

不断增大．从图可以推断出 EM 算法不能保证找到全局最优值．

李航老师：《统计学习》

weixin_39943370

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫