EM算法详解

最新推荐文章于 2021-11-03 08:43:48 发布

做技术不可耻

最新推荐文章于 2021-11-03 08:43:48 发布

阅读量271

点赞数

文章标签：机器学习极大似然估计

本文链接：https://blog.csdn.net/qq_40019838/article/details/101864452

版权

EM算法

EM算法是含有隐变量的概率模型参数的极大似然估计法。

用 $Y$ 表示观测变量的数据， $Z$ 表示隐变量的数据， $\theta$ 表示要估计的参数， $Y$ 和 $Z$ 连在一起称为完全数据，观测数据 $Y$ 称为不完全数据，假设 $Y$ 的概率分布是 $P(Y\mid\theta)$ ，那么不完全数据 $Y$ 的对数似然函数是 $\log P(Y\mid\theta)$ ，假设 $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z\mid\theta)$ ，那么完全数据的对数似然函数是 $\log P(Y,Z\mid\theta)$ 。

对含有隐变量的概率模型，目标是极大化观测数据 $Y$ 对于模型参数 $\theta$ 的对数似然函数，即极大化
$L(\theta)=\log P(Y\mid\theta)=\log(\sum_zP(Y\mid Z,\theta)P(Z\mid\theta))$
这个式子的困难在于存在未观测数据并且包含和的对数，EM算法通过迭代逐步近似极大化 $L(\theta)$ ，假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，我们希望新的估计值 $\theta$ 能使 $L(\theta)$ 增加，即 $L(\theta)>L(\theta^{(i)})$ ，并逐步达到极大值，为此考虑两者的差
$L(\theta)-L(\theta_{(i)})=\log(\sum_zP(Y\mid Z,\theta)P(Z\mid\theta))-\log P(Y\mid\theta^{(i)})$
利用 $J e n s e n$ 不等式
$\begin{aligned} L(\theta)-L(\theta_{(i)}) &=\log(\sum_zP(Z\mid Y,\theta^{(i)})\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\log P(Y\mid\theta^{(i)})\\ &\geq\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\log P(Y\mid\theta^{(i)})\\ &=\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})})-\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y\mid\theta^{(i)})\\ &=\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})}) \end{aligned}$
令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})})$

即
$L(\theta)\geq B(\theta,\theta^{(i)})$
并且 $L(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)})$ ，因此任何能使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ 也一定能使 $L(\theta)$ 增大，为使 $L(\theta)$ 增长尽可能的大，应选择 $\theta^{(i+1)}$ 使 $B(\theta,\theta^{(i)})$ 达到极大，即
$\begin{aligned} \theta^{(i+1)} &=\arg\max\limits_{\theta}B(\theta,\theta^{(i)})\\ &=\arg\max\limits_{\theta}L(\theta^{(i)})+\sum_zP(Z\mid Y,\theta^{(i)})\log(\frac{P(Y\mid Z,\theta)P(Z\mid\theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid\theta^{(i)})})\\ &=\arg\max\limits_{\theta}\sum_zP(Z\mid Y,\theta^{(i)})\log(P(Y\mid Z,\theta)P(Z\mid\theta)\\ &=\arg\max\limits_{\theta}\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid\theta)\\ &=\arg\max\limits_{\theta}E_z[\log P(Y,Z\mid\theta)\mid Y,\theta^{(i)}] \end{aligned}$
令
$Q(\theta,\theta^{(i)})=E_z[\log P(Y,Z\mid\theta)\mid Y,\theta^{(i)}]$
即完全数据的对数似然 $log(Y,Z\mid\theta)$ 关于在给定观测数据和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的期望，因此
$\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$
EM算法：

输入：观测数据变量 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z\mid\theta)$ ，条件分布 $P(Z\mid Y,\theta)$

输出：模型参数 $\theta$

(1) 选择参数的初始值 $\theta^{(0)}$ ，开始迭代

(2) E步：计算 $Q(\theta,\theta^{(i)})=\sum_zP(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid\theta)$

(3) M步：计算 $\theta^{(i+1)}=\arg\max\limits_{\theta}Q(\theta,\theta^{(i)})$

(4) 重复执行第(2)步和第(3)步，直至收敛

高斯混合模型

高斯混合分布是具有如下形式的概率分布
$P(x\mid\theta)=\sum_{k=1}^K\alpha_k\phi(x\mid\theta_k)$
其中 $\alpha_k$ 是系数， $\sum_{k=1}^K\alpha_k=1$ ， $\alpha_k\geq0$ ， $\phi(y\mid\theta_k)$ 是高斯概率密度函数， $\theta_k=(\mu_k,\sigma_k^2)$
$\phi(x\mid\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x-\mu_k)^2}{2\sigma_k^2})$
假设样本的生成过程由高斯混合分布给出：首先根据 $\alpha_1,\alpha_2,\dots,\alpha_k$ 选择一个高斯混合成分，然后根据被选择的高斯混合成分生成观测数据。这是观测数据是已知的，观测数据来自哪个高斯分布是未知的，以隐变量 $\gamma_{jk}$ 表示，其定义如下：
$\begin{aligned} \gamma_{jk}=&\begin{cases} 1,\quad第j个观测来自第k个分模型\\ 0,\quad其他 \end{cases}\\\\ &j=1,2,\dots,N;\;k=1,2,\dots,k \end{aligned}$
那么完全数据是
$(y_j,\gamma_{j1},\gamma_{j2},\dots,\gamma_{jk}),\quad j=1,2,\dots,N$
于是完全数据的似然函数
$\begin{aligned} P(\gamma,y\mid\theta) &=\prod_{j=1}^{N}P(y_j,\gamma_{j1},\gamma_{j2},\dots,\gamma_{jk}\mid\theta)\\ &=\prod_{j=1}^{N}\prod_{k=1}^{K}[\alpha_k\phi(x_j\mid\theta_k)]^{\gamma_{jk}}\\ &=\prod_{k=1}^{K}\alpha_k^{n_k}\prod_{j=1}^{N}[\phi(x_j\mid\theta_k)]^{\gamma_{jk}}\\ &=\prod_{k=1}^{K}\alpha_k^{n_k}\prod_{j=1}^{N}[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{jk}} \end{aligned}$
其中 $n_k=\sum_{j=1}^{N}\gamma_{jk}$ ， $\sum_{k=1}^{K}n_k=N$ ，那么完全数据的对数似然是
$\log P(\gamma,y\mid\theta)=\sum_{k=1}^{K}n_k\log\alpha_k+\sum_{k=1}^{K}\sum_{j=1}^{N}[\gamma_{jk}(\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]$
需要极大化的 $Q$ 函数是
$\begin{aligned} Q(\theta,\theta^{(i)}) &=E_\gamma[\log P(\gamma,y\mid\theta)\mid y,\theta^{(i)}]\\ &=E_\gamma\{\sum_{k=1}^{K}n_k\log\alpha_k+\sum_{k=1}^{K}\sum_{j=1}^{N}[\gamma_{jk}(\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]\}\\ &=\sum_{k=1}^{K}\{\sum_{j=1}^{N}(E\gamma_{jk})\log\alpha_k+\sum_{j=1}^{N}(E\gamma_{jk})[\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2}]\} \end{aligned}$
这里需要计算 $E\gamma_{jk}=E(\gamma_{jk}\mid y,\theta)$
$\begin{aligned} E(\gamma_{jk}\mid y,\theta) &=P(\gamma_{jk}=1\mid y,\theta)\\ &=\frac{P(\gamma_{jk}=1,y_j\mid\theta)}{P(y_j\mid\theta)}\\ &=\frac{P(\gamma_{jk}=1,y_j\mid\theta)}{\sum_{k=1}^{K}P(\gamma_{jk}=1,y_j\mid\theta)}\\ &=\frac{P(y_j\mid\gamma_{jk}=1,\theta)P(\gamma_{jk}=1\mid\theta)}{\sum_{k=1}^{K}P(y_j\mid\gamma_{jk}=1,\theta)P(\gamma_{jk}=1\mid\theta)}\\ &=\frac{\alpha_k\phi(y_j\mid\theta_k)}{\sum_{k=1}^{K}\alpha_k\phi(y_j\mid\theta_k)} \end{aligned}$
$E(\gamma_{jk}\mid y,\theta)$ 表示当前参数下第 $j$ 个观测数据来自第 $k$ 个混合成分的概率，记为 $\hat{\gamma}_{jk}$ 。综上所述
$Q(\theta,\theta^{(i)})=\sum_{k=1}^{K}\{n_k\log\alpha_k+\sum_{j=1}^{N}\hat{\gamma}_{jk}[\log\frac{1}{\sqrt{2\pi}}-\log\sigma_k-\frac{(x_j-\mu_k)^2}{2\sigma_k^2}]\}$
其中 $n_k=\sum_{j=1}^{N}\hat{\gamma}_{jk}$ ，接下来需对 $Q(\theta,\theta^{(i)})$ 求极大，需要求 $Q(\theta,\theta^{(i)})$ 对每个参数的偏导。

$Q(\theta,\theta^{(i)})$ 对 $\mu_k$ 的偏导：
$\frac{\partial Q(\theta, \theta^{(i)})}{\partial \mu_k}=\sum_{j=1}^{N}\frac{\gamma_{jk}(x_j-\mu_k)}{\sigma^2_k}$
所以
$\hat{\mu}_k=\frac{\sum_{j=1}^{N}\gamma_{jk}x_j}{\sum_{j=1}^{N}\gamma_{jk}}$
$Q(\theta,\theta^{(i)})$ 对 $\sigma_k^2$ 的偏导：
$\frac{\partial Q(\theta,\theta^{(i)})}{\partial\sigma_k^2}=-\frac{1}{2}\sum_{j=1}^{N}\hat{\gamma}_{jk}(\frac{1}{\sigma^2_k}-\frac{(x_j-\mu_k)^2}{\sigma^4_k})$
所以
$\hat{\sigma}_k^2=\frac{\sum_{j=1}^{N}\hat{\gamma}^{jk}(x_j-\mu_k)^2}{\sum_{j=1}^{N}\hat{\gamma}_{jk}}$
$Q(\theta,\theta^{(i)})$ 对 $\alpha_k$ 的偏导：由于存在约束条件 $\sum_{k=1}^{K}\alpha_k=1$ ，所以考虑 $Q(\theta,\theta^{(i)})$ 的拉格朗日函数
$L(\theta,\theta^{(i)})=Q(\theta,\theta^{(i)})+\lambda(\sum_{k=1}^K\alpha_k-1)$
求偏导
$\frac{\partial L(\theta,\theta^{(i)})}{\partial\alpha_k}=\frac{\sum_{j=1}^N\hat{\gamma}_{jk}}{\alpha_k}+\lambda$
令偏导等于零，即
$\sum_{j=1}^N\hat{\gamma}_{jk}+\lambda\alpha_k=0$
为求解 $\lambda$ ，对所有分模型求和得
$\sum_{k=1}^K\sum_{j=1}^N\hat{\gamma}_{jk}+\lambda\sum_{k=1}^K\alpha_k=0$
解得 $\lambda=-N$ ，所以
$\hat{\alpha}_k=\frac{\sum_{j=1}^{N}\hat{\gamma}_{jk}}{N}$

多元高斯分布与此类似，更新公式几乎是一模一样的，但计算却更为复杂，涉及到复杂的求导。

根据高斯混合模型的计算结果，可以得到一种聚类方法，即根据 $\gamma$ 的取值判断每个样本属于哪一类，对于样本 $x_j$ ，其所属的类别是
$\arg\max\limits_{k}\gamma_{jk}$

做技术不可耻

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
EM算法详解

EM算法EM算法是含有隐变量的概率模型参数的极大似然估计法。用YYY表示观测变量的数据，ZZZ表示隐变量的数据，θ\thetaθ表示要估计的参数，YYY和ZZZ连在一起称为完全数据，观测数据YYY称为不完全数据，假设YYY的概率分布是P(Y∣θ)P(Y\mid\theta)P(Y∣θ)，那么不完全数据YYY的对数似然函数是log⁡P(Y∣θ)\log P(Y\mid\theta)logP(Y∣...
复制链接

扫一扫