(斯坦福机器学习课程笔记)EM算法

最新推荐文章于 2020-12-30 11:03:00 发布

万德1010

最新推荐文章于 2020-12-30 11:03:00 发布

阅读量972

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_32231743/article/details/60570139

版权

机器学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

=========================JENSEN不等式========================
若 $f(x)$ 是凸函数，即 $f^{''}(x)=0$ ，则 $f(E[x])\geq E[f(x)]$ ，当 $E[x]=x$ 时，取等号。若 $f(x)$ 是凹函数，不等号反向。
该不等式有直观的几何理解，引用网上的图(http://wiki.mbalib.com/wiki/%E8%A9%B9%E6%A3%AE%E4%B8%8D%E7%AD%89%E5%BC%8F)
这里写图片描述
可以看到，对于上图的凹函数，在 $[x,y]$ 区间， $E[f(x)]$ 的值在红色的线上， $f(E(X))$ 的值在凹函数所在的绿色线上， $f(E(X))\leq E[f(x)]$ 。

说明：关于JENSEN不等式，网上很多博客等资料里把不等号方向弄反了，请仔细辨别

=========================EM算法的一般形式=======================
对于一些无标签的样本 $\{x_1,x_2,x_3 \dots x_m \}$ ，我们建立一个参数为 $\theta$ 的模型，参数可以有很多个。该模型含有隐变量 $z$ ，要求隐变量分布函数 $\sum_{i=1}^kQ(z_i)=1$ ，不同的 $z$ ，对应不同的模型参数 $\theta_i$ 值。则此时可用EM算法估算出 $z$ 和 $\theta$ 的值，算法推导如下：

对似然函数 $L(\theta)=\prod_{i=1}^m P(x_i;\theta)$ 取对数，并引入隐变量得：

\sum i = 1 m l o g \sum j = 1 k P (x i, z j i; θ)

$\sum_{i=1}^mlog\sum_{j=1}^kP(x_i,z_i^j;\theta)$
因为

∑ki=1Q(zi)=1 $\sum_{i=1}^kQ(z_i)=1$ ，上式等于

\sum i = 1 m l o g \sum j = 1 k Q i (z j i) P ( x i , z j i ; θ ) Q i ( z j i )

$\sum_{i=1}^mlog\sum_{j=1}^kQ_i(z_i^j)\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}$
根据期望值的定义，上式等于

\sum i = 1 m l o g E [P ( x i , z j i ; θ ) Q i ( z j i )]

$\sum_{i=1}^mlogE[\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}]$
因为当底大于1时，

log $log$ 是凸函数（底一般取

e $e$ ），根据JENSEN不等式，

logE[x]≥E[log(x)] $logE[x]\geq E[log(x)]$ ，因此上式大于等于

\sum i = 1 m E [l o g P ( x i , z j i ; θ ) Q i ( z j i )]

$\sum_{i=1}^mE[log\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}]$
根据期望值的定义，上式等于

\sum i = 1 m \sum j = 1 k Q i (z j i) l o g P ( x i , z j i ; θ ) Q i ( z j i )

$\sum_{i=1}^m\sum_{j=1}^kQ_i(z_i^j)log\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}$
上式为似然函数

L(θ) $L(\theta)$ 的下界。根据JENSEN不等式，当

E[x]=x $E[x]=x$ 时，取等号，即上式取到最大值。该条件要求x为常数，即

P ( x i , z j i ; θ ) Q i ( z j i ) = 常 数 C

$\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}=常数C$
根据

∑ki=1Q(zi)=1 $\sum_{i=1}^kQ(z_i)=1$ ，可得到

\sum i = 1 k Q (z i) P ( x i , z j i ; θ ) Q i ( z j i ) = C

$\sum_{i=1}^kQ(z_i)\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}=C$
即

\sum i = 1 k P (x i, z j i; θ) = C

$\sum_{i=1}^kP(x_i,z_i^j;\theta)=C$
此时

Q i (Z j i) = P ( x i , z j i ; θ ) C = P ( x i , z j i ; θ ) \sum k i = 1 P ( x i , z j i ; θ ) = P ( x i , z j i ; θ ) P ( x i ; θ ) = P (z j i | x i; θ)

$Q_i(Z_i^j)=\frac{P(x_i,z_i^j;\theta)}{C}=\frac{P(x_i,z_i^j;\theta)}{\sum_{i=1}^kP(x_i,z_i^j;\theta)}=\frac{P(x_i,z_i^j;\theta)}{P(x_i;\theta)}=P(z_i^j\ |\ x_i;\theta)$
上式说明，当 $Q_i(Z_i^j)=P(z_i^j\ |\ x_i;\theta)$ 时，下界是最紧致的，此时

L (θ) = \sum i = 1 m \sum j = 1 k Q i (z j i) l o g P ( x i , z j i ; θ ) Q i ( z j i )

$L(\theta)=\sum_{i=1}^m\sum_{j=1}^kQ_i(z_i^j)log\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}$
接下来，只需调整

θ $\theta$ ，使得似然函数最大即可。
以下是EM算法的迭代步骤：
E步骤：
对于每一个样本，调整

Qi(zji) $Q_i(z_i^j)$ ，使其等于

P(zji | xi;θ) $P(z_i^j\ |\ x_i;\theta)$
M步骤：
调整模型参数

θ $\theta$ ，使其等于

argmaxθ∑mi=1∑kj=1Qi(zji)logP(xi,zji;θ)Qi(zji) $\arg\max\limits_{\theta}\sum_{i=1}^m\sum_{j=1}^kQ_i(z_i^j)log\frac{P(x_i,z_i^j;\theta)}{Q_i(z_i^j)}$

===========================EM算法可以收敛的证明====================
可以将EM算法看成对 $L(\theta)$ 使用Q和 $\theta$ 的坐标上升方法优化。直接优化目标函数是行不通的，因此通过JENSEN不等式，找到目标函数的下界函数，E步骤调整Q，使得下界函数等于被目标函数，M步骤是调整参数 $\theta$ ，使得下界函数最优化。通过E，M两个步骤的反复迭代，达到优化目标。