Machine Learning Series No.6 -- EM algorithm

最新推荐文章于 2021-10-04 13:09:43 发布

bra_ve

最新推荐文章于 2021-10-04 13:09:43 发布

阅读量157

点赞数

分类专栏：机器学习原理算法要点

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bra_ve/article/details/82191790

版权

机器学习原理同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

EM算法

1.直观理解

通俗理解：https://blog.csdn.net/v_JULY_v/article/details/81708386

通俗的理解看出就是EM算法由于不知道隐变量的分布，先给出参数的随机初始值，然后根据参数，去得到隐变量的分布，然后根据隐变量和观测变量的共同分布基于最大似然去重新估计参数，知道参数稳定。

2.数学推导

极大似然估计：

L (θ) = \sum i log p (x i; θ) = \sum i log (\sum j p (x i, z j; θ))

$L(\theta) = \sum_{i}\log p(x_i;\theta) = \sum_{i}\log (\sum_{j}p(x_i,z_j;\theta))$

L (θ) = \sum i log (\sum j p ( x i , z j ; θ ) Q j ( z j ) Q j (z j))

$L(\theta) = \sum_{i}\log(\sum_{j}\frac{p(x_i,z_j;\theta)}{Q_j(z_j)}Q_j(z_j))$

= \sum i log (E z j Q j (z j) (p ( x i , z j ; θ ) Q j ( z j )))

$= \sum_{i} \log (E_{z_j~Q_j(z_j)}(\frac{p(x_i,z_j;\theta)}{Q_j(z_j)}))$

由于log函数是凹函数，有 $f(E(x)) \ge E(f(x))$ ，则上式可化为：

L (θ) \geq \sum i \sum j Q j (z j) log p ( x i , z j ; θ ) Q j ( z j )

$L(\theta) \ge \sum_i \sum_j Q_j(z_j) \log \frac{p(x_i,z_j;\theta)}{Q_j(z_j)}$
当

p(xi,zj;θ)Qj(zj)=c p ( x i , z j ; θ ) Q j ( z j ) = c $\frac{p(x_i,z_j;\theta)}{Q_j(z_j)} = c$ (常数)时，取等号。

因此以当前点构造的下界为：

p ( x i , z j ; θ ) Q j ( z j ) = c

$\frac{p(x_i,z_j;\theta)}{Q_j(z_j)} = c$
因为

zj z j $z_j$ 的分布为

Qj Q j $Q_j$ ，同时他们的概率和应为1。

\sum j Q j (z j) = 1

$\sum_jQ_j(z_j)=1$
所以，可得：

\sum j p ( x i , z j ; θ ) c = 1

$\sum_j \frac{p(x_i,z_j;\theta)}{c}=1$

\sum j p (x i, z j; θ) = p (x i; θ) = c

$\sum_jp(x_i,z_j;\theta) =p(x_i;\theta) = c$

Q j (z j) = p ( x i , z j ; θ ) \sum j p ( x i , z j ; θ ) = p (z j | x i; θ)

$Q_j(z_j) = \frac{p(x_i,z_j;\theta)}{\sum_jp(x_i,z_j;\theta)}=p(z_j|x_i;\theta)$

至此，E步完毕。E步目的是为了构造最大下界，此时Q函数为后验概率。

而M步为了最大化下界：

将 $Q_j(z_j)$ 代入原有的 $L(\theta)$ 中去：

max θ \sum i \sum j Q j (z j) log p ( x i , z j ; θ ) Q j ( z j )

$\max_\theta\sum_i \sum_j Q_j(z_j) \log \frac{p(x_i,z_j;\theta)}{Q_j(z_j)}$
最大化下界，得到新的

θ θ $\theta$ 估计。

3.图形理解

先随机初始化 $\theta_0$ ，对应的下界为 $g\_z0$ ，然后E步构造似然函数下界 $g\_z1$ ，使得下界在 $\theta_0$ 时与 $L(\theta)$ 相等（即Jensen不等式中，等于常数时取等号）。M步最大化下界，得到 $M1$ ,对应的 $\theta_1$ 为参数的新的估值。这个过程在迭代求解。

4.与K-means的关系

https://www.zhihu.com/question/49972233?sort=created

5.EM算法

EM算法中的Q函数为：

Q (θ, θ i) = E z [log P (X, Z | θ) | X, θ i]

$Q(\theta,\theta_i) = E_z[\log P(X,Z|\theta)|X,\theta_i]$
而将我们的最大似然推导出来的Q函数代入，下界得到的却是：

\sum i \sum j p (z j | x i, θ t) log p ( x i , z j ; θ ) p ( z j | x i , θ t )

$\sum_i \sum_j p(z_j|x_i,\theta_t) \log \frac{p(x_i,z_j;\theta)}{p(z_j|x_i,\theta_t)}$
这里注意，求解出来的Q函数代入的时候，不能使用

p ( x i , z j ; θ ) p ( z j | x i , θ t ) = p (x i)

$\frac{p(x_i,z_j;\theta)}{p(z_j|x_i,\theta_t)}=p(x_i)$
这里的

θ θ $\theta$ 是不一样的。

最终的等价可由以下式子推出：

1534940623243

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning Series No.6 -- EM algorithm

EM算法1.直观理解通俗理解：https://blog.csdn.net/v_JULY_v/article/details/81708386通俗的理解看出就是EM算法由于不知道隐变量的分布，先给出参数的随机初始值，然后根据参数，去得到隐变量的分布，然后根据隐变量和观测变量的共同分布基于最大似然去重新估计参数，知道参数稳定。2.数学推导极大似然估计： L(θ)=∑ilo...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。