EM算法学习笔记与三硬币模型推导

最新推荐文章于 2023-12-06 23:18:42 发布

幸运六叶草

最新推荐文章于 2023-12-06 23:18:42 发布

阅读量5.1k

点赞数

分类专栏： Machine Learning 人工智能之机器学习篇

Machine Learning 同时被 2 个专栏收录

56 篇文章 2 订阅

订阅专栏

人工智能之机器学习篇

34 篇文章 33 订阅

订阅专栏

最近接触了pLSA模型，由于该模型中引入了主题作为隐变量，所以需要使用期望最大化（Expectation Maximization）算法求解。

本文简述了以下内容：

为什么需要EM算法

EM算法的推导与流程

EM算法的收敛性定理

使用EM算法求解三硬币模型

为什么需要EM算法

数理统计的基本问题就是根据样本所提供的信息，对总体的分布或者分布的数字特征作出统计推断。所谓总体，就是一个具有确定分布的随机变量，来自总体的每一个iid样本都是一个与总体有相同分布的随机变量。

参数估计是指这样一类问题——总体所服从的分布类型已知，但某些参数未知：设 Y1,...,YN 是来自总体 Y 的iid样本，记 Y=(y1,...,yN) 是样本观测值，如果随机变量 Y1,...,YN 是可观测的，那么直接用极大似然估计法就可以估计参数 θ 。

但是，如果里面含有不可观测的隐变量，使用MLE就没那么容易。EM算法正是服务于求解带有隐变量的参数估计问题。

EM算法的推导与流程

下面考虑带有隐变量 Z (观测值为 z )的参数估计问题。将观测数据（亦称不完全数据）记为 Y=(y1,...,yN) ，不可观测数据记为 Z=(z1,...,zN) ， Y 、 Z 合在一起称为完全数据。那么观测数据的似然函数为

l (θ) = \prod j = 1 N P (y j | θ) = \prod j = 1 N \sum z P (z | θ) P (y j | z, θ)

其中求和号表示对 z 的所有可能取值求和。

为了省事，表述成这个形式：

l (θ) = P (Y | θ) = \sum z P (z | θ) P (Y | z, θ)

对数似然：

L (θ) = ln P (Y | θ) = ln \sum z P (z | θ) P (Y | z, θ)

EM算法是一种迭代算法，通过迭代的方式求取目标函数 L(θ)=lnP(Y|θ) 的极大值。因此，希望每一步迭代之后的目标函数值会比上一步迭代结束之后的值大。设当前第 n 次迭代后参数取值为 θn ，我们的目的是使 L(θn+1)>L(θn) 。那么考虑：

L (θ) - L (θ n) = ln (\sum z P (z | θ) P (Y | z, θ)) - ln P (Y | θ n)

使用Jensen不等式：

ln \sum j λ j y j \geq \sum j λ j log y j, λ j \geq 0, \sum j λ j = 1

因为 ∑zP(z|Y,θn)=1 ，所以 L(θ)−L(θn) 的第一项有

ln (\sum z P (z | θ) P (Y | z, θ)) = ln (\sum z P (z | Y, θ n) P ( z | θ ) P ( Y | z , θ ) P ( z | Y , θ n )) \geq \sum z P (z | Y, θ n) ln P ( z | θ ) P ( Y | z , θ ) P ( z | Y , θ n )

第二项有

- ln P (Y | θ n) = - \sum z P (z | Y, θ n) ln P (Y | θ n)

则 L(θ)−L(θn) 的下界为

L (θ) - L (θ n) \geq \sum z P (z | Y, θ n) ln P ( z | θ ) P ( Y | z , θ ) P ( z | Y , θ n ) - \sum z P (z | Y, θ n) ln P (Y | θ n) = \sum z [P (z | Y, θ n) ln P ( z | θ ) P ( Y | z , θ ) P ( z | Y , θ n ) - P (z | Y, θ n) ln P (Y | θ n)] = \sum z P (z | Y, θ n) ln P ( z | θ ) P ( Y | z , θ ) P ( Y | θ n ) P ( z | Y , θ n )

定义一个函数 l(θ|θn) ：

l (θ | θ n) ≜ L (θ n) + \sum z P (z | Y, θ n) ln P ( z | θ ) P ( Y | z , θ ) P ( Y | θ n ) P ( z | Y , θ n )

从而有 L(θ)≥l(θ|θn) ，也就是说第 n 次迭代结束后， L(θ) 的一个下界为 l(θ|θn) 。另外，有等式 L(θn)=l(θn|θn) 成立。

我们的目的是使下一次迭代后得到的目标函数值能够大于当前的值： L(θn+1)>L(θn) ，即 L(θn+1)>l(θn|θn) 。

而在当前， L(θ) 的下界为 l(θ|θn) ，因此，任何能让 l(θ|θn) 增大的 θ ，也可以让 L(θ) 增大。

也就是说，能满足 l(θn+1|θn)>l(θn|θn) 的 θn+1 ，一定更能满足 L(θn+1)>l(θn|θn)=L(θn) 。

通过下图（来源：参考资料[1]，自己做了点注释）可以解释：

需要注意的是，下界的曲线当然是随着迭代的进行而变化的：在第 i 次迭代结束后，总是有不等式 L(θ)≥l(θ|θi) 和等式 L(θi)=l(θi|θi) 成立。

换句话说，EM算法通过优化对数似然在当前的下界，来间接优化对数似然。

ok，那么现在问题就从找满足 L(θn+1)>L(θn) 的 θn+1 ，

转变成了找满足 l(θn+1|θn)>l(θn|θn) 的 θn+1 。如何找到这样一个 θn+1 ？直接找 l(θ|θn) 的最优解呗：

θ n + 1 = arg max θ l (θ | θ n)

把 l(θ|θn) 中的几个与 θ 无关的量去掉，从而有

θ n + 1 = arg max θ \sum z P (z | Y, θ n) ln [P (z | θ) P (Y | z, θ)] = arg max θ \sum z P (z | Y, θ n) ln P (Y, z | θ)

回顾一下随机变量的期望的表达式：

E [Z] = \sum k P (Z = z k) z k

E [g (Z)] = \sum k P (Z = z k) g (z k)

E [Z | Y = y] = \sum k P (Z = z k | Y = y) z k

所以：

θ n + 1 = arg max θ E Z | Y, θ n [ln P (Y, z | θ)] = arg max θ Q (θ | θ n)

上式定义了一个函数 Q(θ|θn) ，称为 Q 函数。

上式完整表明了EM算法中的一步迭代中所需要的两个步骤：E-step，求期望；M-step，求极大值。有了上面的铺垫，下面介绍EM算法的流程：

输入：观测数据 Y ，不可观测数据 Z ；

输出：参数 θ ；

步骤：1. 给出参数初始化值 θ0 ；

2. E步：记 θn 为第 n 次迭代后参数的估计值。在第 n+1 次迭代的E步，求期望（ Q 函数）

Q (θ | θ n) = E Z | Y, θ n [ln P (Y, z | θ)] = \sum z P (z | Y, θ n) ln P (Y, z | θ)

3. M步：求 Q 函数的极大值点，来作为第 n+1 次迭代所得到的参数估计值 θn+1

θ n + 1 = arg max θ Q (θ | θ n)

4. 重复上面两步，直至达到停机条件。

EM算法的收敛性定理

定理1：观测数据的似然函数 P(Y|θ) 通过EM算法得到的序列 P(Y|θn)(n=1,2,...) 单调递增： P(Y|θn+1)≥P(Y|θn) 。

定理2：(1) 如果 P(Y|θ) 有上界，则 L(θn)=lnP(Y|θn) 收敛到某一值 L∗ ；

(2) 在 Q 函数与 L(θ) 满足一定条件下，由EM算法得到的参数估计序列 θn 的收敛值 θ∗ 是 L(θ) 的稳定点。

定理2中第二点的“条件”在大多数情况下都满足。只能保证收敛到稳定点，不能保证收敛到极大值点，因此EM算法受初值的影响较大。

使用EM算法求解三硬币模型

参考资料[2]给出了三硬币模型的描述：

假设有三枚硬币A、B、C，这些硬币正面出现的概率分别是 π 、 p 、 q 。进行如下掷硬币试验：先掷A，如果A是正面则再掷B，如果A是反面则再掷C。对于B或C的结果，如果是正面则记为1，如果是反面则记为0。进行 N 次独立重复实验，得到结果。现在只能观测到结果，不能观测到掷硬币的过程，估计模型参数 θ=(π,p,q) 。

在这个问题中，实验结果是可观测数据 Y=(y1,...,yn) ，硬币A的结果是不可观测数据 Z=(z1,...,zn) 且 z 只有两种可能取值1和0。

对于第 j 次试验，

P (y j | θ) = \sum z P (y j, z | θ) = \sum z P (z | θ) P (y j | z, θ) = P (z = 1 | θ) P (y j | z = 1, θ) + P (z = 0 | θ) P (y j | z = 0, θ) = {π p + (1 - π) q, π (1 - p) + (1 - π) (1 - q), if y j = 1; if y j = 0. = π p y j (1 - p) 1 - y j + (1 - π) q y j (1 - q) 1 - y j

所以有

P (Y | θ) = \prod j = 1 N P (y j | θ) = \prod j = 1 N (π p y j (1 - p) 1 - y j + (1 - π) q y j (1 - q) 1 - y j)

1. E-step，求期望（Q函数）：

Q (θ | θ n) = \sum z P (z | Y, θ n) ln P (Y, z | θ) = \sum j = 1 N {\sum z P (z | y j, θ n) ln P (y j, z | θ)} = \sum j = 1 N {P (z = 1 | y j, θ n) ln P (y j, z = 1 | θ) + P (z = 0 | y j, θ n) ln P (y j, z = 0 | θ)}

先求 P(z|yj,θn) ，

P (z | y j, θ n) = ⎧ ⎩ ⎨ π n p y j n ( 1 - p n ) 1 - y j π n p y j n ( 1 - p n ) 1 - y j + ( 1 - π n ) q y j n ( 1 - q n ) 1 - y j = μ j, n 1 - μ j, n if z = 1; if z = 0.

再求 P(yj,z|θ)=P(z|θ)P(yj|z,θ) ，

P (y j, z | θ) = {π p y j (1 - p) 1 - y j (1 - π) q y j (1 - q) 1 - y j if z = 1; if z = 0.

因此， Q 函数表达式为：

Q (θ | θ n) = \sum j = 1 N {μ j, n ln [π p y j (1 - p) 1 - y j] + (1 - μ j, n) ln [(1 - π) q y j (1 - q) 1 - y j]}

2. M-step，求 Q 函数的极大值：

令 Q 函数对参数求导数，并等于零。

\partial Q ( θ | θ n ) \partial π = \sum j = 1 N {μ j , n ln [ π p y j ( 1 - p ) 1 - y j ] + ( 1 - μ j , n ) ln [ ( 1 - π ) q y j ( 1 - q ) 1 - y j ] \partial π} = \sum j = 1 N {μ j, n p y j ( 1 - p ) 1 - y j π p y j ( 1 - p ) 1 - y j + (1 - μ j, n) - q y j ( 1 - q ) 1 - y j ( 1 - π ) q y j ( 1 - q ) 1 - y j} = \sum j = 1 N {μ j , n - π π ( 1 - π )} = ( \sum N j = 1 μ j , n ) - n π π ( 1 - π )

\partial Q ( θ | θ n ) \partial π = 0 ∴ π n + 1 ⟹ π = 1 n \sum j = 1 N μ j, n = 1 n \sum j = 1 N μ j, n

\partial Q ( θ | θ n ) \partial p = \sum j = 1 N {μ j , n ln [ π p y j ( 1 - p ) 1 - y j ] + ( 1 - μ j , n ) ln [ ( 1 - π ) q y j ( 1 - q ) 1 - y j ] \partial p} = \sum j = 1 N {μ j, n π ( y j p y j - 1 ( 1 - p ) 1 - y j + p y j ( - 1 ) ( 1 - y j ) ( 1 - p ) 1 - y j - 1 ) π p y j ( 1 - p ) 1 - y j + 0} = \sum j = 1 N {μ j , n ( y j - p ) p ( 1 - p )} = ( \sum N j = 1 μ j , n y j ) - ( p \sum N j = 1 μ j , n ) p ( 1 - p )

\partial Q ( θ | θ n ) \partial p = 0 ∴ p n + 1 q n + 1 ⟹ p = \sum N j = 1 μ j , n y j \sum N j = 1 μ j , n = \sum N j = 1 μ j , n y j \sum N j = 1 μ j , n = \sum N j = 1 ( 1 - μ j , n ) y j \sum N j = 1 ( 1 - μ j , n )

既然已经得到了三个参数的迭代式，便可给定初值，迭代求解了。

参考资料：

[1] The Expectation Maximization Algorithm: A short tutorial - Sean Borman

[2] 《统计学习方法》，李航

对于原创博文：如需转载请注明出处http://www.cnblogs.com/Determined22/

幸运六叶草

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。