GEM(Generalized Expectation Maximizatio)算法简介

前言

之前我写过一篇EM算法的笔记:
EM算法(Expectation-maximization algorithm)小结
从中我们可以看到,EM算法的本质就是E-step和M-step的重复迭代:

  • E-step: Q ( ϕ ∣ ϕ i ) = E ( log ⁡ ( f ( x ∣ ϕ ) ) ∣ y , ϕ i ) Q\left(\phi \mid \phi^{i}\right)=E\left(\log (f(x \mid \phi)) \mid y, \phi^{i}\right) Q(ϕϕi)=E(log(f(xϕ))y,ϕi)
  • M-step: ϕ i + 1 = arg ⁡ max ⁡ ( Q ( ϕ ∣ ϕ i ) ) \phi^{i+1}=\arg \max \left(Q\left(\phi \mid \phi^{i}\right)\right) ϕi+1=argmax(Q(ϕϕi))
  • repeat until ∥ Q ( ϕ i + 1 ∣ ϕ i ) − Q ( ϕ i ∣ ϕ i ) ∥ \left\|Q\left(\phi^{i+1} \mid \phi^{i}\right)-Q\left(\phi^{i} \mid \phi^{i}\right)\right\| Q(ϕi+1ϕi)Q(ϕiϕi)充分小

但是这里的M-step可能比较复杂,这时候可能要引入广义的EM算法——GEM算法。

GEM背景

GEM算法是数据不完全或者存在缺失变量的情况下参数估计的迭代算法,和EM算法一样,每一次迭代是由期望(Expectation)和极大(Maximization)两步操作构成,也是一种广义的渐进逼近的最优化算法。相较于EM算法,其优缺点也比较明显。

优点

1、它所涉及理论的简单化和一般性,在大多数情况下,它实质上是一个优化算法,并且能够收敛到局部极值。
2、许多的应用都能纳入到GEM算法的范畴,当完全数据来源于一个指数分布族时,极大似然估计计算就比较简单,算法的每一个极大化的计算也比较简单。

缺点

1、GEM算法会收敛到局部极值,但不保证收敛到全局最优解。
2、对初值敏感:GEM通常需要一个好的、快速的初始化过程如矩方法得到的结果在GMM中。但这这样的情况并不是每次都能成功构筑。

特点

EM算法的核心在于其F函数,而GEM算法的特点是每次迭代增加F函数值(并不一定是极大化F函数),从而增加似然函数值。同时也能较好地解决Information Loss测度的问题。

GEM M-step

与EM算法的M-step的最大区别在于,GEM的M-step先定义 M ( ϕ ) M(\phi) M(ϕ)满足 Q ( M ( ϕ ) ∣ ϕ ) ≥ Q ( ϕ ∣ ϕ ) Q(M(\phi) \mid \phi) \geq Q(\phi \mid \phi) Q(M(ϕ)ϕ)Q(ϕϕ) for ∀ ϕ ∈ Ω \forall \phi \in \Omega ϕΩ,这里的Ω是参数空间,则M-step为 ϕ i + 1 = M ( ϕ ) \phi^{i+1}=M(\phi) ϕi+1=M(ϕ),即 Q ( ϕ i + 1 ∣ ϕ i ) ≥ Q ( ϕ i ∣ ϕ i ) Q\left(\phi^{i+1} \mid \phi^{i}\right) \geq Q\left(\phi^{i} \mid \phi^{i}\right) Q(ϕi+1ϕi)Q(ϕiϕi)

GEM性质

接下来我们要介绍几个定理和性质,说明这样的M-step的优势。

引理1

对于任意一对参数 ( ϕ ′ , ϕ ) ∈ Ω × Ω (\left.\phi^{\prime}, \phi\right) \in \Omega \times \Omega (ϕ,ϕ)Ω×Ω,有 H ( ϕ ′ ∣ ϕ ) ≤ H ( ϕ ∣ ϕ ) H\left(\phi^{\prime} \mid \phi\right) \leq H(\phi \mid \phi) H(ϕϕ)H(ϕϕ)

定理1

由引理1,我们可以推出: L ( M ( ϕ ) ∣ ϕ ) ≥ L ( ϕ ) L(M(\phi) \mid \phi) \geq L(\phi) L(M(ϕ)ϕ)L(ϕ) for ∀ ϕ ∈ Ω \forall \phi \in \Omega ϕΩ,等号的成立当且仅当 Q ( M ( ϕ ) ∣ ϕ ) = Q ( ϕ ∣ ϕ ) Q(M(\phi) \mid \phi)=Q(\phi \mid \phi) Q(M(ϕ)ϕ)=Q(ϕϕ),同时我们还可以推出,假设存在 ϕ ∗ ∈ Ω , ∀ ϕ ∈ Ω , L ( ϕ ∗ ) > L ( ϕ ) \phi^{*} \in \Omega, \forall \phi \in \Omega, L\left(\phi^{*}\right)>L(\phi) ϕΩ,ϕΩ,L(ϕ)>L(ϕ),且 ϕ ≠ ϕ ∗ \phi \neq \phi^{*} ϕ=ϕ,那么以下式子几乎处处成立

  • L ( M ( ϕ ∗ ) ) = L ( ϕ ∗ ) L\left(M\left(\phi^{*}\right)\right)=L\left(\phi^{*}\right) L(M(ϕ))=L(ϕ)
  • Q ( M ( ϕ ∗ ) ∣ ϕ ∗ ) = Q ( ϕ ∗ ∣ ϕ ∗ ) Q\left(M\left(\phi^{*}\right) \mid \phi^{*}\right)=Q\left(\phi^{*} \mid \phi^{*}\right) Q(M(ϕ)ϕ)=Q(ϕϕ)
  • k ( x ∣ y , M ( ϕ ∗ ) ) = k ( x ∣ y , ϕ ∗ ) k\left(x \mid y, M\left(\phi^{*}\right)\right)=k\left(x \mid y, \phi^{*}\right) k(xy,M(ϕ))=k(xy,ϕ)
  • M ( ϕ ∗ ) = ϕ ∗ M\left(\phi^{*}\right)=\phi^{*} M(ϕ)=ϕ

定理2

假设 ϕ ( p ) , p = 0 , 1 , 2 , … \phi^{(p)}, p=0,1,2, \ldots ϕ(p),p=0,1,2,是GEM的一个序列,且满足:

  • 在Ω闭包中, ϕ ( p ) \phi^{(p)} ϕ(p)收敛到 ϕ ∗ \phi^{*} ϕ
  • D 10 Q ( ϕ ( p + 1 ) ∣ ϕ ( p ) ) = 0 D^{10} Q\left(\phi^{(p+1)} \mid \phi^{(p)}\right)=0 D10Q(ϕ(p+1)ϕ(p))=0
  • D 20 Q ( ϕ ( p + 1 ) ∣ ϕ ( p ) ) D^{20} Q\left(\phi^{(p+1)} \mid \phi^{(p)}\right) D20Q(ϕ(p+1)ϕ(p))负定,且所有特征值都远离0

那么:

  • D L ( ϕ ∗ ) = 0 D L\left(\phi^{*}\right)=0 DL(ϕ)=0
  • D 20 Q ( ϕ ∗ ∣ ϕ ∗ ) D^{20} Q\left(\phi^{*} \mid \phi^{*}\right) D20Q(ϕϕ)负定
  • D M ( ϕ ∗ ) = D 20 H ( ϕ ∗ ∣ ϕ ∗ ) [ D 20 Q ( ϕ ∗ ∣ ϕ ∗ ) ] − 1 D M\left(\phi^{*}\right)=D^{20} H\left(\phi^{*} \mid \phi^{*}\right)\left[D^{20} Q\left(\phi^{*} \mid \phi^{*}\right)\right]^{-1} DM(ϕ)=D20H(ϕϕ)[D20Q(ϕϕ)]1

这个定理证明相当长,明显不会在这里证明……

定理3-收敛性

先定义ζ是参数θ的局部最优点集,η是参数θ的稳定点集。设 ϕ p \phi_{p} ϕp是GEM算法中的一个迭代序列,且:

  • M是在η的补集上是封闭的
  • L ( ϕ i + 1 ) > L ( ϕ i ) L\left(\phi^{i+1}\right)>L\left(\phi^{i}\right) L(ϕi+1)>L(ϕi) for ∀ ϕ i ∉ η \forall \phi^{i} \notin \eta ϕi/η

那么 ϕ p \phi_{p} ϕp的极限是L的稳定点,并且存在一些稳定点 ϕ ∗ \phi^{*} ϕ,使得 L ∗ = L ( ϕ ∗ ) L^{*}=L\left(\phi^{*}\right) L=L(ϕ)
将定理中的η换为ζ相应定理也成立

定理4

ϕ p \phi^{p} ϕp是GEM算法中的一个迭代序列,且Q函数是连续的,那么:

  • ϕ p \phi^{p} ϕp的极限是L的稳定点
  • 存在稳定点 ϕ ∗ \phi^{*} ϕ,使得 L ∗ = L ( ϕ ∗ ) L^{*}=L\left(\phi^{*}\right) L=L(ϕ)

这个和定理3相似。

定理5

假设Q函数是连续的, sup ⁡ ϕ ′ ∈ Ω Q ( ϕ ′ ∣ ϕ ) > Q ( ϕ ∣ ϕ ) \sup _{\phi^{\prime} \in \Omega} Q\left(\phi^{\prime} \mid \phi\right)>Q(\phi \mid \phi) supϕΩQ(ϕϕ)>Q(ϕϕ) for ∀ ϕ ∈ η \ ζ \forall \phi \in \eta \backslash \zeta ϕη\ζ,那么:

  • ϕ p \phi^{p} ϕp是GEM算法中的一个迭代序列,那么 ϕ p \phi^{p} ϕp的极限是L的稳定点
  • 存在稳定点 ϕ ∗ \phi^{*} ϕ,使得 L ∗ = L ( ϕ ∗ ) L^{*}=L\left(\phi^{*}\right) L=L(ϕ)

这个也和定理3类似

附注

需要注意的是,当 L L L收敛到 L ∗ L^{*} L并不意味着 ϕ p \phi^{p} ϕp收敛到 ϕ ∗ \phi^{*} ϕ,这里的讨论可以参考:
Wu,C.F.J.(1983).On the convergence properties of the EM algorithm.

总结

对于EM算法而言,GEM算法的基本思想没有变化——首先在给出缺失数据初值的条件下估计出参数值,然后根据参数值估计出缺失数据的值;再根据估计出的缺失数据值对参数值进行更新,如此反复迭代直至收敛。但对M-step的改写使得它具有一些别样的性质(见定理1-5),这些性质在实际使用的时候,会比EM算法更为方便。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页