机器学习之EM算法解析

最新推荐文章于 2020-05-20 15:20:53 发布

_bigPo

最新推荐文章于 2020-05-20 15:20:53 发布

阅读量956

点赞数

分类专栏：机器学习文章标签：机器学习 EM

本文链接：https://blog.csdn.net/firethelife/article/details/51283230

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

EM算法是参数估计一种，一般的，比如我们知道了样本 $x_1, x_2, ... x_m$ 我们想寻找样本背后的参数，通常使用最大似然函数法，然后对最大似然函数求极值得到相应的参数。但是在有些情况下，样本的生成还有不可观测的隐变量所控制，那么如果对含有隐变量的样本数据进行参数估计呢？

同样的我们先将似然函数写下来：

l (θ) = \sum i = 1 m l o g p (x; θ) = \sum i = 1 m l o g \sum z p (x ∣ z; θ) p (z; θ) = \sum i = 1 m l o g \sum z p (x, z; θ)

$\begin{align} l(\theta) &= \sum_{i=1}^{m} \mathrm{log}\ p(x;\theta) \\ &= \sum_{i=1}^{m} \mathrm{log}\sum_{z}\ p(x\mid z;\theta)p(z;\theta) \\ &= \sum_{i=1}^{m} \mathrm{log}\sum_{z}\ p(x, z;\theta) \end{align}$
因为z是未知的，因此无法通过最大化似然函数求解参数。为了解决这个问题，我们可以先找到似然函数的一个下界，极大化该下界也可以达到增大

l(θ) $l(\theta)$ 的目的。

如何寻找似然函数的下界呢？可以根据jensen不等式获得一个对应的下界：

l (θ) = \sum i l o g \sum z (i) p (x (i), z (i); θ) = \sum i l o g \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) \geq \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )

$\begin{align} l(\theta) &= \sum_i \mathrm{log} \sum_{z^{(i)}}p(x^{(i)},z^{(i)}; \theta) \\ &= \sum_i \mathrm{log} \sum_{z^{(i)}} Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)}; \theta)}{Q_i(z^{(i)})} \\ &\ge \sum_i \sum_{z^{(i)}} Q_i(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta)}{Q_i(z^{(i)})} \end{align}$

因此我们将最大化似然函数转移到了最大化似然函数的下界：

a r g max θ \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = a r g max θ B (θ)

$\mathrm{arg\ } \max\limits_{\theta} \sum_i \sum_{z^{(i)}} Q_i(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta)}{Q_i(z^{(i)})} \\ = \mathrm{arg\ } \max\limits_{\theta} B(\theta)$

那么式子中的 $Q_i(z^{(i)})$ 又代表了什么意思呢？是怎么来的呢？
我们通过极大化似然函数的下界求得更新的参数令为 $\theta^{(t+1)}$ ，则显然下面两个式子成立：

l (θ (t)) \geq B (θ (t)) l (θ (t + 1)) \geq B (θ (t + 1))

$l(\theta^{(t)}) \ge B(\theta^{(t)}) \\ l(\theta^{(t+1)}) \ge B(\theta^{(t+1)})$

为了达到最好的效果，我们希望更新 $Q_i(z^{(i)})$ 后的 $B(\theta)$ 满足

l (θ (t)) = B (θ (t)) l (θ (t + 1)) \geq B (θ (t + 1))

$l(\theta^{(t)}) = B(\theta^{(t)}) \\ l(\theta^{(t+1)}) \ge B(\theta^{(t+1)})$

根据jensen不等式的性质，只有当 $X$ 为常数时，才能满足等式成立，也即：

p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = c

$\frac{p(x^{(i)},z^{(i)}; \theta)}{Q_i(z^{(i)})} = c$
也即是说：

Q i (z (i)) \propto p (x (i), z (i); θ)

$Q_i(z^{(i)}) \propto p(x^{(i)},z^{(i)}; \theta)$

又因为 $\sum_z(Q_i(z^{(i)})) = 1$ ，从而有：

Q i (z (i)) = p ( x ( i ) , z ( i ) ; θ ) \sum z p ( x ( i ) , z ; θ ) = p ( x ( i ) , z ( i ) ; θ ) p ( x ( i ) ; θ ) = p (z (i) ∣ x (i); θ)

$\begin{align} Q_i(z^{(i)}) &= \frac{p(x^{(i)},z^{(i)}; \theta)}{\sum_zp(x^{(i)},z; \theta)} \\ &= \frac{p(x^{(i)},z^{(i)}; \theta)}{p(x^{(i)}; \theta)} \\ &= p(z^{(i)}\mid x^{(i)}; \theta) \end{align}$

因此可以说 $Q_i(z^{(i)})$ 是给定样本 $x^{(i)}$ 和参数 $\theta$ 的情况下关于隐藏变量 $z^{(i)}$ 的后验概率。

至此，EM算法的步骤大致介绍完毕，下面简述下流程：

E-step：对每个样本i，令：

Q i (z (i)) : = p (z (i) ∣ x (i); θ)

$Q_i(z^{(i)}) := p(z^{(i)}\mid x^{(i)}; \theta)$
M-step：令

θ : = a r g max θ \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )

$\theta := \mathrm{arg\ } \max\limits_{\theta} \sum_i \sum_{z^{(i)}} Q_i(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta)}{Q_i(z^{(i)})}$

重复上面两步，直到收敛为止。

那么EM算法是否收敛呢？
我们只需说明在参数迭代的过程中有 $l(\theta^{(t)}) \le l(\theta^{(t+1)})$ 就可以了。
由 E-step 我们可以得到：

l (θ (t)) = \sum i \sum z (i) Q (t) i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ( t ) ) Q ( t ) i ( z ( i ) )

$l(\theta^{(t)}) = \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta^{(t)})}{Q_i^{(t)}(z^{(i)})}$
而对于似然函数

l(θ(t+1)) $l(\theta^{(t+1)})$ 及其下界有如下的关系：

l (θ (t + 1)) \geq \sum i \sum z (i) Q (t) i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ( t + 1 ) ) Q ( t ) i ( z ( i ) ) \geq \sum i \sum z (i) Q (t) i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ( t ) ) Q ( t ) i ( z ( i ) ) = l (θ (t))

$\begin{align} l(\theta^{(t+1)}) &\ge \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \\ &\ge \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)})\mathrm{log} \frac{p(x^{(i)},z^{(i)}; \theta^{(t)})}{Q_i^{(t)}(z^{(i)})} \\ &= l(\theta^{(t)}) \end{align}$

上述式子表明，随着EM的迭代，似然函数 $l(\theta)$ 是一个单调增函数，因此如果两次迭代的增量小于某个值即可认为收敛。

参考

[1] Andrew Ng CS229 Lecture notes
[2] 李航统计学习方法

_bigPo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之EM算法解析

EM算法是参数估计一种，一般的，比如我们知道了样本x1,x2,...xmx_1, x_2, ... x_m 我们想寻找样本背后的参数，通常使用最大似然函数法，然后对最大似然函数求极值得到相应的参数。但是在有些情况下，样本的生成还有不可观测的隐变量所控制，那么如果对含有隐变量的样本数据进行参数估计呢？同样的我们先将似然函数写下来： l(θ)=∑i=1mlog p(x;θ)=∑i=1mlog∑z p
复制链接

扫一扫