EM算法

最新推荐文章于 2022-11-23 23:02:57 发布

Monster_Satan

最新推荐文章于 2022-11-23 23:02:57 发布

阅读量423

点赞数

分类专栏：机械学习

本文链接：https://blog.csdn.net/Monster_Satan/article/details/78934966

版权

机械学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据点： $\left \{ (x_1,y_1),(x_2,y_2),\cdots ,(x_N,y_N) \right \}$
数据点中的向量(即数据点的特征)： $x=\left \{ x^{(1)} ,x^{(2)},...,x^{(n)}\right \}^{T}$
数据点的第 $j$ 个特征： $a _{j}=\left \{ a_{j}^{(1)},a_{j}^{(2)},\cdots ,a_{j}^{(n)} \right \}$
样本：样本包含多个数据点
总体：总体包含多个样本

简介

EM算法，全称Expectation Maximization Algorithm，译作最大期望化算法或期望最大算法，它是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估计或极大后验概率估计。

算法

解释一
输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y，Z|\theta )$ ，条件分布 $P(Z|Y,\theta )$ ；
输出：模型参数。
（1）选择参数的初值 $\theta ^{(0)}$ ，开始迭代；
（2）E步：利用概率模型参数的现有估计值，在第 $i$ 次迭代即固定 $\theta ^{(i)}$ 计算 $Q$ 函数。
$Q (Z) = p (Z | Y, θ (i))$ $Q(Z)=p(Z|Y,\theta^{(i)})$
（3） M步：利用E 步上求得的隐藏变量的期望，对参数模型进行最大似然估计

$J (Z, θ) = \sum Z Q i (Z) l o g p ( Y , Z | θ ) Q i ( Z ) = \sum Z p (Z | Y, θ (i)) l o g p ( Y , Z | θ ) p ( Z | Y , θ ( i ) )$ $\begin{align*} J(Z,\theta ) &= \sum_{Z}Q_{i}(Z)log\frac{p(Y,Z|\theta )}{Q_{i}(Z)}\\ &= \sum_{Z}p(Z|Y,\theta^{(i)})log\frac{p(Y,Z|\theta )}{p(Z|Y,\theta^{(i)})} \end{align*}$
$\theta ^{(i+1)}=arg\, \underset{\theta }{max}\: J(Z,\theta )$
$argmax$ 是一种函数，函数 $y=f(x)$ ， $x_0= argmax(f(x))$ 的意思就是参数 $x_0$ 满足 $f(x_0)$ 为 $f(x)$ 的最大值；

（4）重复第（2）步和第（3）步，直到收敛。

- 解释二
（1）选择参数的初值 $\theta ^{(0)}$ ，开始迭代；
（2）E步：记 $\theta ^{(i)}$ 为第 $i$ 次迭代参数的估计值，在第 $i+1$ 次迭代的E步，计算

Q (θ, θ (i)) = E Z [l o g P (Y, Z | θ) | Y, θ (i)] = \sum Z P (Z | Y, θ (i)) l o g P (Y, Z | θ)

$\begin{align*} Q(\theta ,\theta ^{(i)}) &= E_{Z}[logP(Y,Z|\theta )|Y,\theta ^{(i)}]\\ &= \sum_{Z}P(Z|Y,\theta ^{(i)})logP(Y,Z|\theta ) \end{align*}$
这里，

P(Z|Y,θ(i)) $P(Z|Y,\theta ^{(i)})$ 是在给定观测数据

Y $Y$ 和当前的参数估计

θ(i) $\theta ^{(i)}$ 下隐变量数据

Z $Z$ 的条件概率分布；
（3） M步：求使

Q(θ,θ(i)) $Q(\theta ,\theta ^{(i)})$ 极大化的，确定第

i+1 $i+1$ 次迭代的参数的估计值

θ(i) $\theta ^{(i)}$

θ (i + 1) = a r g m a x θ Q (θ, θ (i))

$\theta ^{(i+1)}=arg\, \underset{\theta }{max}\:Q(\theta ,\theta ^{(i)})$
（4）重复第（2）步和第（3）步，直到收敛

EM算法收敛性

定理1
设 $P(Y|\theta )$ 为观测数据的似然函数， $\theta ^{(i)}（i＝1,2,…）$ 为EM算法得到的参数估计序列， $P(Y|\theta ^{(i)})（i＝1,2,…）$ 为对应的似然函数序列，则 $P(Y|\theta ^{(i)})$ 是单调递增的，即 $p (Y | θ (i + 1)) ⩾ p (Y | θ (i))$ $p(Y|\theta ^{(i+1)})\geqslant p(Y|\theta ^{(i)})$
定理2
设 $L(\theta )＝logP(Y|\theta )$ 为观测数据的对数似然函数， $\theta ^{(i)}(i＝1,2,…)$ 为EM算法得到的参数估计序列， $L(\theta ^{(i)})(i＝1,2,…)$ 为对应的对数似然函数序列。
（1）如果 $P(Y|\theta )$ 有上界，则 $L(\theta ^{(i)})＝logP(Y|\theta ^{(i)})$ 收敛到某一值 $L^*$ ；
（2）在函数 $Q(\theta,\theta^{(i)})$ 与 $L(\theta)$ 满足一定条件下，由EM算法得到的参数估计序列 $\theta^{(i)}$ 的收敛值 $\theta^*$ 是 $L(\theta)$ 的稳定点。

EM算法推导

上式中的观测数据 $Y$ 在此处用样本数据 $x$ 表示。

Jensen不等式

在完善EM算法之前，首先来了解下Jensen不等式，因为在EM算法的推导过程中会用到。
- Jensen不等式描述如下：
如果f是凸函数， $X$ 是随机变量，则 $E[f(X)]\leqslant f(E[X])$ ，特别地，如果f是严格凸函数， $E[f(X)]\geqslant f(E[X])$ ，那么当且仅当 $p(x=E[X])=1$ 时（也就是说 $X$ 是常量）， $E[f(x)]=f(E[X])$ ；
如果f是凹函数， $X$ 是随机变量，则 $E[f(X)]\geqslant f(E[X])$ .当 $f$ 是（严格）凹函数当且仅当 $-f$ 是（严格）凸函数。
- 通过下面这张图，可以加深印象：

凹函数

EM推导

给定 $m$ 个训练样本 ${x^{(1)},…,x^{(m)}}$ ,假设样本间相互独立，我们想要拟合模型 $p(x,z)$ 到数据的参数。根据分布，我们可以得到如下这个似然函数：

L (θ) = \sum i = 1 m l o g p (x | θ) = \sum i = 1 m l o g \sum z p (x, z | θ)

$\begin{eqnarray} L(\theta )&= \sum_{i=1}^{m}log\,p(x|\theta )\\ &= \sum_{i=1}^{m}log\sum_{z}p(x,z|\theta ) \end{eqnarray}$
注意：第一步

∑mi=1logp(x|θ) $\sum_{i=1}^{m}log\,p(x|\theta )$ 为

m $m$ 个样本的似然函数之和，即整体的似然函数。
第二步

∑zp(x,z|θ) $\sum_{z}p(x,z|\theta )$ 是对每个样本实例的每个可能的类别

z $z$ 求联合分布概率之和。如果

z $z$ 是个已知的数，那么使用极大似然估计来估算会很容易。在这种

z $z$ 不确定的情形下，EM算法就派上用场了。

EM算法推导

对于每个实例 $i$ ,用 $Q_i$ 表示样本实例隐含变量 $z$ 的某种分布，且 $Q_i$ 满足条件 $（\sum_{z}Q_{i}=1,Q_{i}\geqslant 0）$ ,如果 $Q_i$ 是连续性的，则 $Q_i$ 表示概率密度函数，需要将求和符号换成积分符号。则上述(1)式与(2)式做如下变换：

\sum i = 1 m l o g p (x (i) | θ) = = ⩾ \sum i = 1 m l o g \sum z i p (x (i), z (i) | θ) \sum i = 1 m l o g \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) ) \sum i = 1 m \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) )

$\begin{eqnarray} \sum_{i=1}^{m}log\,p(x^{(i)}|\theta ) &= &\sum_{i=1}^{m}log\sum_{z^{i}}p(x^{(i)},z^{(i)}|\theta )\\ &= &\sum_{i=1}^{m}log\sum_{z^{(i)}}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}\\ &\geqslant &\sum_{i=1}^{m}\sum_{z^{(i)}}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})} \end{eqnarray}$

首先(4)中的 $log$ 函数看成为一个整体， $log$ 函数为一个凹函数。根据Jensen不等式， $E[f(X)]\geqslant f(E[X])$ 可得(5)式。(5)式的推导如下；
概率论中的随机变量的期望计算方法，如下图所示

因此，结合上面的知识点，我们可以把(4)式当中的 $Q_i(z^{(i)})$ 看成相应的概率 $p_i$ ，把 $\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}$ 看作是 $z^{(i)}$ 的函数 $g(z)$ ，类似地，根据期望公式 $E(x)=∑x∗p(x)$ 可以得到：

\sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) )

$\sum_{z^{(i)}}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}$
其实这就是

p(x(i),z(i)|θ)Qi(z(i)) $\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}$ 的期望。再根据凹函数对应的Jensen不等式性质，

E[f(X)]⩾f(E[X]) $E[f(X)]\geqslant f(E[X])$ 。

l o g \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) ) ⩾ \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) )

$log\sum_{z^{(i)}}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}\geqslant \sum_{z^{(i)}}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}$

因此便得到了公式(5)。OK，现在我们知道上面的式（4）和式（5）两个不等式可以写成：似然函数 $L(θ)>=J(z,Q)$ 的形式（ $z$ 为隐含变量），那么我们可以通过不断的最大化 $J$ 的下界，来使得 $L(θ)$ 不断提高，最终达到它的最大值。使用下图会比较形象：

首先我们固定 $θ$ ，调整 $Q(z)$ 使下界 $J(z,Q)$ 上升至与 $L(θ)$ 在此点 $θ$ 处相等（绿色曲线到蓝色曲线），然后固定 $Q(z)$ ，调整 $θ$ 使下界 $J(z,Q)$ 达到最大值（ $θ^t$ 到 $θ^{t+1}$ ），然后再固定 $θ$ ，调整 $Q(z)$ ……直到收敛到似然函数 $L(θ)$ 的最大值处的 $θ$ 。

Q函数推导

根据第一步，固定 $θ$ ，调整 $Q(z)$ 使下界 $J(z,Q)$ 上升至与 $L(θ)$ 在此点 $θ$ 处相等，此处求解当 $Q(z)$ 为何值时，下界 $J(z,Q)$ 与 $L(θ)$ 在此点 $θ$ 处相等。求解过程如下：
在Jensen不等式中说到，当自变量 $X=E(X)$ 时，即为常数的时候，等式成立。而在这里，为：

g (z) = p ( x ( i ) , z ( i ) | θ ) Q i ( z ( i ) ) = c

$\begin{eqnarray} g(z)&=&\frac{p(x^{(i)},z^{(i)}|\theta )}{Q_{i}(z^{(i)})}=c \end{eqnarray}$
对该式做个变换，并对所有的

z $z$ 求和，得到

\sum z (i) p (x (i), z (i) | θ) = \sum z (i) Q i (z (i)) c

$\begin{eqnarray} \sum_{z^{(i)}}{p(x^{(i)},z^{(i)}|\theta)}&=&\sum_{z^{(i)}}{Q_i(z^{(i)})}c \end{eqnarray}$
因为前面提到

∑z(i)Qi(z(i))=1 $\sum_{z^{(i)}}Q_i(z^{(i)})=1$ （概率之和为1），所以可以推导出：

\sum z (i) p (x (i), z (i) | θ) = c

$\begin{eqnarray} \sum_{z^{(i)}}{p(x^{(i)},z^{(i)}|\theta)}&=&c \end{eqnarray}$
根据(6)可得

Qi(z(i)) $Q_{i}(z^{(i)})$

Q i (z (i)) = p ( x ( i ) , z ( i ) | θ ) c

$\begin{eqnarray} Q_{i}(z^{(i)})=\frac{p(x^{(i)},z^{(i)}|\theta )}{c} \end{eqnarray}$
根据(8)式

∑z(i)p(xi,z(i)|θ)=c $\sum_{z^{(i)}}{p(x^{i},z^{(i)}|\theta)}=c$ 可得

Q i (z (i)) = p ( x ( i ) , z ( i ) | θ ) \sum z ( i ) p ( x ( i ) , z ( i ) | θ ) = p ( x ( i ) , z ( i ) | θ ) p ( x ( i ) | θ ) = p (z (i) | x (i), θ)

$\begin{align*} Q_{i}(z^{(i)}) &= \frac{{p(x^{(i)},z^{(i)}|\theta)}}{\sum_{z^{(i)}}{p(x^{(i)},z^{(i)}|\theta)}}\\ &= \frac{{p(x^{(i)},z^{(i)}|\theta)}}{{p(x^{(i)}|\theta)}}\\ &= p(z^{(i)}|x^{(i)},\theta) \end{align*}$
由此可知当