二十三.期望最大化(EM)算法的数学原理

最新推荐文章于 2024-05-25 16:51:28 发布

stackooooover

最新推荐文章于 2024-05-25 16:51:28 发布

阅读量409

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118635479

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.Jesen不等式

如果 $f (x)$ 是凸函数， $x$ 是随机变量，则：
$E(f(x))\geqslant f(E(x))$
特别的，当 $f (x)$ 为严格凸函数， $x$ 为常量时，等号成立。

2.最大似然估计

通常在求概率分布时，已知条件(参数 $\theta$ )推算结果。
最大似然估计是已知结果，估计使这个结果成立的可能性最大的条件(参数 $\theta$ )。
最大似然估计的一般步骤为下：
(1)写出似然函数。
(2)为方便计算，似然函数取对数。
(3)求对数似然函数对各个参数的导数，并令结果为0，得似然方程组。
(4)解似然方程组得结果。

3.EM算法简介

EM算法用来解决含有无法观测的隐变量的概率模型的求参数问题。
例如，男女的身高属于不同的正态分布，抽取一部分男生，可以通过极大似然估计求得男生的正态分布的均值和方差，从而得到男生身高的概率分布公式。
如果抽取的人数中既有男生又有女生，并不知道每个样本是男生还是女生，也就是说样本来自于哪个分布并不清楚，此时，就需要EM算法来进行参数估计。
EM算法给分布的参数假设一个初始值，然后求隐变量的期望。再通过隐变量的期望，用最大似然估计重新求分布的参数，再用其求隐变量的期望，如此反复。

4.EM算法推导

通常，在求概率分布的参数 $\theta$ 时，使用极大似然估计：
$\theta=\arg\max_{\theta }\sum_{i}\log P(x^{i};\theta )$
含有因变量 $z$ 时，需要求出每个 $x^{i}$ 关于所有 $z^{i}$ 的边缘概率分布，然后再进行估计：
$\theta=\arg\max_{\theta }\sum_{i}\log \sum_{z^{i}}P(x^{i},z^{i};\theta )$
上式的求导过程过于复杂，可以使用Jenson不等式简化计算。构造有关 $z^{i}$ 的分布 $Q (z)$ ，使：
$\sum_{z^{i}}Q(z^{i})=1$
将 $Q (z)$ 带入到极大似然估计中，可以得到：
$\sum_{i}\log \sum_{z^{i}}P(x^{i},z^{i};\theta )=\sum_{i}\log \sum_{z^{i}}Q(z^{i})\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}$
令：
$f(y)=\log\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}$
则：
$E(y)=\sum_{z^{i}}Q(z^{i})\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}\\ f(E(y))=\log\sum_{z^{i}}Q(z^{i})\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}\\ E(f(y))=\sum_{z^{i}}Q(z^{i})\log\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}$
由于：
$f^{''}(y)=-\frac{1}{y^{2}}<0$
$f (y)$ 是凹函数，根据Jenson不等式：
$f(E(y))\geqslant E(f(y))\\ \Rightarrow \sum_{i}\log\sum_{z^{i}}Q(z^{i})\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}\geqslant \sum_{i}\sum_{z^{i}}Q(z^{i})\log\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}$
令以上不等式中左式为 $L$ ，右式为 $J$ ，EM算法的目的是求 $L$ 最大化时的参数。由于直接求 $L$ 较难，而已知 $L\geqslant J$ ，因此，可以通过最大化 $J$ 来最大化 $L$ 。具体做法为：
a.首先选择一个初始参数 $\theta$ ，调整 $Q (z)$ ，使 $L = J$ （E步）。
b.再固定 $Q (z)$ ，调整 $\theta$ ，使 $J$ 最大化。
c.重复以上两步知道收敛。
在Jeson不等式中，要使 $L = J$ (即 $f (E (y)) = E (f (y))$ )的条件是 $y$ 为常量，即：
$y=\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}=c\\ \Rightarrow P(x^{i},z^{i};\theta )=cQ(z^{i})\\ \Rightarrow Q(z^{i})=\frac{P(x^{i},z^{i};\theta )}{c}\\$
又：
$\sum_{z^{i}}Q(z^{i})=1\\ \Rightarrow \sum_{z^{i}}P(x^{i},z^{i};\theta )=c\sum_{z^{i}}Q(z^{i})=c\\ \Rightarrow c=P(x^{i};\theta )$
综上：
$Q(z^{i})=\frac{P(x^{i},z^{i};\theta )}{c}=\frac{P(x^{i},z^{i};\theta )}{P(x^{i};\theta )}=P(z^{i}|x^{i};\theta )$
可得隐变量 $z^{i}$ 的分布 $Q(z^{i})$ ,E步完成。
M步的过程为极大化 $J$ :
$\sum_{i}\sum_{z^{i}}Q(z^{i})\log\frac{P(x^{i},z^{i};\theta )}{Q(z^{i})}=\sum_{i}\sum_{z^{i}}Q(z^{i})\log P(x^{i},z^{i};\theta )-\sum_{i}\sum_{z^{i}}Q(z^{i})\log Q(z^{i})$
由于此时 $Q(z^{i})$ ，则减号后边为常量，可以省略，因此，极大化 $J$ 等价于极大化下式：
$\sum_{i}\sum_{z^{i}}Q(z^{i})\log P(x^{i},z^{i};\theta )$

5.EM算法流程

输入：数据集，迭代最大次数 $k$ 。
输出：参数 $\theta$ 。
(1)从数据集中求出联合概率分布 $P(x,z;\theta)$ ，条件概率 $P(z|x;\theta)$
(2)初始化参数 $\theta$ 。
(3)分两步
E步：
计算隐变量的概率分布：
$Q(z^{i})=P(z^{i}|x^{i};\theta )$
得到极大似然估计公式：
$\sum_{i}\sum_{z^{i}}Q(z^{i})\log P(x^{i},z^{i};\theta )$
M步：
通过极大似然估计估计下一轮的迭代值：
$\theta ^{next}=\arg\min_{\theta }\sum_{i}\sum_{z^{i}}Q(z^{i})\log P(x^{i},z^{i};\theta )$
(4)重复(3)知道收敛或者最大迭代次数。