em在聊天中是什么意思_EM算法(1):EM算法的引入与导出

18c2fb112d12d6363c53b12d807599b8.png

算法是一种迭代算法, 1977 年由 Dempster 等人总结提出,用于含有隐变量(hidden variable) 的概率模型参数的极大似然估计, 或极大后验概率估计。EM 算法的每次迭代由两步组成:
步,求期望 (expectation)
步, 求极大 ( maximization)。 所以这一算法称为期望极大算法 ( expectation maximization algorithm),简称 EM 算法。

EM 算法的引入:三硬币模型

概率模型有时既含有观测变量(observable variable),又含有隐变量或潜在变量 (latent variable)。如果概率模型的变量都是观测变量, 那么给定数据,可以直接用极大似然估计法, 或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。EM 算法就是含有隐变量的概率模型参数的极大似然估计法, 或极大后验概率估计法。我们仅讨论极大似然估计,极大后验概率估计与其类似。

假设有 3 枚硬币,分别记作

。 这些硬币正面出现的概率分别是

进行如下掷硬币试验:

  1. 掷硬币 A,根据其结果选出硬币 B 或硬币 C,正面选硬币 B,反面选硬币
  2. 掷根据硬币 A选出的硬币(该次是掷硬币B或C),根据这次掷硬币的结果,出现正面记作
    出现反面记作
  3. 独立地重复
    次试验
    这里,
    观测结果如下:

假设只能观测到掷硬币的结果,不能观测郑硬币的过程(即我们不知道是掷了硬币B还是掷了硬币C)。问如何估计三硬币模型正面出现的概率,即三个硬币模型的参数。

: 三个硬币模型可以写作

这里, 随机变量

是观测变量,表示一次试验观测的结果是1或 0; 随机变量
是隐变量, 表示未观测到的掷硬币
的结果
是模型参数。

注意:随机变量

的数据可以观测,随机变量
的数据不可观测。

将观测数据表示为

未观测数据表示为

考虑求模型参数

的极大似然估计,即

这个问题没有解析解,只有通过迭代的方法求解,EM 算法就是可以用于求解这个问题的一种迭代算法。下面给出针对以上问题的 EM 算法,其推导过程省略。

EM 算法首先选取参数的初值, 记作

然后通过下面的步骤迭代计算参数的估计值,直至收政为止。第
次迭代参数的估计值为
EM算法的第
次迭代如下。

步: 计算在模型参数
下观测数据
来自郑硬币
的概率

步:计算模型参数的新估计值

一般地,用

表示观测随机变量的数据,
表示隐随机变量的数据。
连在一起称为完全数据(complete data),观测数据
又称为不完全数据(incomplete data)。假设给定观测数据
其概率分布是
其中
是需要估计的模型参数, 那么不完全数据
的似然函数是
, 对数似然函数
假设
的联合概率分布是
, 那么完全数据的对数似然函数是

EM 算法通过迭代求

的极大似然估计。每次迭代包含两步, 求期望:
步,求极大化。

EM 算法过程

输入: 观测变量数据

, 隐变量数据
, 联合分布
条件分布

输出:模型参数

(1) 选择参数的初值
开始迭代; (2)
步: 记
为第
次迭代参数
的估计值,在第
次迭代的
步,

这里,

是在给定观测数据
和当前的参数估计
下隐变量数据
的条件概率分布; (3)
步: 求使
极大化的
确定第
次迭代的参数的估计值

(4) 重复第 (2) 步和第 (3) 步,直到收敘。

函数

是 EM算法的核心, 称为
函数
function

函数

定义:完全数据的对数似然函数

关于在给定观测数据
和当前参数
下对未观测数据
的条件概率分布
的期望称为
函数,即

关于 EM 算法的几点说明

步骤(1):参数的初值选择可以是任意的,但需要注意EM算法对初值是敏感的。

步骤(2):

步求
函数中
是未观测数据,
是观测数据。
的第 1 个变元表示要极大化的参数,第 2 个变元表示参数的当前估计 值。每次迭代实际在求
函数及其极大。

步骤 (3):

步求
的极大化, 得到
完成一次迭代
后面将证明每次迭代使似然函数增大或达到局部极值。

步骤 (4): 给出停止迭代的条件, 一般是对较小的正数

若满足

则停止迭代。

EM 算法的导出

上面叙述了 EM 算法。为什么 EM 算法能近似实现对观测数据的极大似然估计呢?下面通过近似求解观测数据的对数似然函数的极大化问题来导出 EM 算法,由此可以清楚地看出

算法的作用。

我们面对一个含有隐变量的概率模型,目标是极大化观测数据 (不完全数据)

关于参数
的对数似然函数,即极大化

**注意:**这一极大化的主要困难是式中有未观测数据并有包含和 (或积分) 的对数。

事实上,EM 算法是通过迭代逐步近似极大化

的。假设在第
次迭代后
的估计值是
, 我们希望新估计值
能使
增加,并逐步达到极大值。为此,考虑两者的差:

利用 Jensen 不等式 ( Jensen inequality) 得到其下界:

note:

  1. Jensen inequality:

即函数

的一个下界,且从
的定义可知,

因此, 任何可以使

增大的
也可以使
增大。为了使
有尽可能的增大,选择
使
达到极大,即

现在求

的表达式

省去对

的极大化而言是常数的项的部分,则有

此式等价于 EM 算法的一次迭代,即求

函数及其极大化。

EM算法是通过 不断求解下界的极大化逼近求解对数似然函数极大化的算法。 下图给出 EM 算法的直观解释。图中上方曲线为

下方曲线为
为对数似然函数
的下界。两个函数在点
处相等。EM 算法找到下一个点
使
极大化。这时由于
,函 数
的增加,保证对数似然函数
在每次迭代中也是增加的.EM 算法 在点
重新计算
函数值,进行下一次迭代.在这个过程中,对数似然函数
不断增大.从图可以推断出 EM 算法不能保证找到全局最优值.

6ec40a84d0c7f02326d89adc3b8b382c.png
李航老师:《统计学习》
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值