统计学习方法之EM算法

最新推荐文章于 2023-12-20 10:16:34 发布

何如千泷

最新推荐文章于 2023-12-20 10:16:34 发布

阅读量2.3k

点赞数

分类专栏：统计学习方法文章标签： 1024程序员节概率论机器学习人工智能算法

本文链接：https://blog.csdn.net/qq_42735631/article/details/120936355

版权

统计学习方法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

EM算法

一般地，用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变的数据。 $Y$ 和 $Z$ 连在一起称为完全数据。假设给定观测数据 $Y$ ，其概率分布是 $P(Y|\theta)$ ，其中 $\theta$ 是需要估计地模型参数。

EM算法通过迭代求 $L(\theta)=logP(Y|\theta)$ 的极大似然估计。每次迭代包含两步： $E$ 步，求期望； $M$ 步，求极大化。

1. 算法流程

$输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$

$输出：模型参数\theta$

选择参数的初值 $\theta^{(0)}$ ，开始迭代
$E$ 步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数的估计值，在第 $i + 1$ 次迭代的 $E$ 步，计算
$Q(\theta,\theta^{(i)})=E_z[logP(Y,Z|\theta)|Y,\theta^{(i)}]=\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})$
其中 $P(Z|Y,\theta^{(i)})$ 是在给定观测数据 $Y$ 和当前参数估计 $\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布
$M$ 步：求使 $Q(\theta,\theta^{(i)})$ 的极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数估计值 $\theta^{(i+1)}$
$\theta^{(i+1)}=arg\max_{\theta}Q(\theta,\theta^{(i)})$
重复第2步和第3步，直到收敛

函数 $Q(\theta,\theta^{(i)})$ 是EM算法的核心，称为Q函数

完全数据的对数似然函数 $logP(Y,Z|\theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z|Y,\theta^{(i)})$ 的期望称为Q函数

2. EM算法的导出

对于含有隐变量的概率模型，目标是极大化观测数据 $Y$ 关于参数 $\theta$ 的对数似然函数，即极大化
$L(\theta)=logP(Y|\theta)=log\sum_ZP(Y,Z|\theta)=log\sum_ZP(Y|Z,\theta)P(Z|\theta)$
$E M$ 算法是通过迭代逐步近似极大化 $L(\theta)$ 。假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，我们希望新估计值 $\theta$ 能使 $L(\theta)$ 增加，即 $L(\theta)>L(\theta^{(i)})$ ，并逐步到达极大值。为此，考虑两者的差：

$L(\theta)-L(\theta^{(i)})=log\sum_ZP(Y|Z,\theta)P(Z|\theta)-logP(Y|\theta^{(i)})$

利用Jensen不等式：

$log\sum_j\lambda_jy_i \geq \sum_j\lambda_jlogy_i, \quad \lambda_j \geq0,\sum_j\lambda_j=1$

得到下界：
$L(\theta)-L(\theta^{(i)})=log(\sum_ZP(Z|Y,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)} {P(Z|Y,\theta^{(i)})})-logP(Y|\theta^{(i)}) \\ \geq \sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)} {P(Z|Y,\theta^{(i)})} - \sum_ZP(Z|Y,\theta^{(i)})logP(Y|\theta^{(i)}) \\ =\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)} {P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})} \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad$

令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)} {P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$

则

$L(\theta) \geq B(\theta, \theta^{(i)})$

因此，任何可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大。为了使 $L(\theta)$ 有尽可能大的增大，选择 $\theta^{(i+1)}$ 使 $B(\theta,\theta^{(i)})$ 达到极大，即
$\theta^{(i+1)}=arg\max_\theta B(\theta,\theta^{(i)})$
$\theta^{(i+1)}=arg\max_\theta (L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)} {P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}) \\ = arg\max_\theta (\sum_ZP(Z|Y,\theta^{(i)})log(P(Y|Z,\theta)P(Z|\theta))) \quad \quad \quad \\ = arg\max_\theta (\sum_ZP(Z|Y,\theta^{i})logP(Y,Z|\theta))=arg\max_\theta Q(\theta, \theta^{(i)})$

3. EM算法在高斯混合模型学习中的应用

3.1 高斯混合模型

高斯混合模型是指具有如下形式的概率分布模型：
$P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)$
其中， $\alpha_k$ 是系数， $\alpha_k \geq0, \sum_{k=1}^K\alpha_k=1;\phi(y|\theta_k)$ 是高斯密度函数， $\theta_k=(\mu_k,\sigma_k)$
$\phi(y|\theta_k)=\frac {1} {\sqrt {2 \pi}\sigma_k}exp(-\frac {(y-\mu_k)^2} {2\sigma_k^2})$
称为第 $k$ 个模型

3.2 高斯混合模型参数估计的EM算法

3.2.1 问题描述

假设观测数据 $y_1,y_2,...,y_N$ 由高斯混合模型生成
$P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)$
其中， $\theta=(\alpha_1,\alpha_2,...,\alpha_K;\theta_1,\theta_2,...,\theta_K)$ 是我们需要利用 $E M$ 算法估计的参数

3.2.2 明确隐变量，写出完全数据的对数似然函数

观测数据 $y_j,j=1,2,...,N$ 是先以概率 $\alpha_k$ 选择第 $k$ 个高斯分布模型 $\phi(y|\theta_k)$ ，然后通过这个高斯分布模型生成观测数据 $y_j$

观测数据 $y_j$ 是已知的，反映观测数据 $y_j$ 来自第 $k$ 个高斯分布模型是未知的，以隐变量 $\gamma_{jk}$ 表示，定义如下：
$\gamma_{jk}= \begin{cases} 1, & \text{第j个观测数据来自第k个高斯分布模型} \\ 0, & \text{other} \end{cases} \\ j=1,2,...,N; \quad k=1,2,...,K \quad \quad \quad \quad \quad \quad$
有了观测数据 $y_j$ 和未观测数据 $\gamma_{jk}$ ，那么完全数据是
$(y_j,\gamma_{j1},\gamma_{j2},...,\gamma_{jK})$
完全数据的似然函数：
$P(y,\gamma|\theta)=\prod_{j=1}^NP(y_j,\gamma_{j1},\gamma_{j2},...,\gamma_{jK}|\theta)\\=\prod_{j=1}^N\prod_{k=1}^K[\alpha_k\phi(y_j|\theta)]^{\gamma_{jk}}\\=\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\phi(y_j|k)]^{\gamma_{jk}}\\=\prod_{k=1}^K\alpha_k^{n_k}\prod_{j=1}^N[\frac {1} {\sqrt {2 \pi}\sigma_k}exp(-\frac {(y-\mu_k)^2} {2\sigma_k^2})]^{\gamma_{jk}}$
其中， $n_k=\sum_{j=1}^N\gamma_{jk}, \sum_{k=1}^Kn_k=N$

那么完全数据的对数似然函数为：
$logP(y,\gamma|\theta)=\sum_{k=1}^K\{n_klog\alpha_k+\sum_{j=1}^N\gamma_{jk}[log(\frac {1} {\sqrt {2\pi}})-log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$

3.2.3 EM算法的E步：确定Q函数

$Q(\theta,\theta^{(i)})=E_\gamma[logP(y,\gamma|\theta)|y,\theta^{(i)}]\\=E_\gamma\{\sum_{k=1}^K\{n_klog\alpha_k+\sum_{j=1}^N\gamma_{jk}[log(\frac {1} {\sqrt {2\pi}})-log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\}\\=\sum_{k=1}^K\{n_klog\alpha_k+\sum_{j=1}^N(E\gamma_{jk})[log(\frac {1} {\sqrt {2\pi}})-log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$

其中
$E(\gamma_{rk}|y,\theta)=P(\gamma_{jk}=1|y,\theta)=\frac {P(\gamma_{jk}=1,y_j|\theta)} {\sum_{k=1}^KP(\gamma_{jk}=1,y_j|\theta)}\\=\frac {P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum_{k=1}^KP(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}\\=\frac {\alpha_k\phi(y_j|\theta_k)} {\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)},\quad j=1,...,N;k=1,..,K$

$E(\gamma_{jk})$ 表示在当前模型参数下第 $j$ 个观测数据来自第 $k$ 个高斯分布模型的概率，称为第 $k$ 个高斯分布模型对观测数据 $y_j$ 的响应度。

3.2.4 确定EM算法的M步

$\theta^{(i+1)}=arg\max_\theta Q(\theta,\theta^{(i)})$
分别对 $\mu_k,\sigma_k^2$ 求偏导并令其为0
$\frac {\partial Q(\theta,\theta^{(i)})}{\partial \mu_k}=\sum_{j=1}^N E(\gamma_{jk})\frac{y_i-\mu_k}{\sigma_k^2}=0\\ \sum_{j=1}^NE(\gamma_{jk})(y_j-\mu_k)=0 \\ \hat \mu_k=\frac {\sum_{j=1}^NE(\gamma_{jk})y_j} {\sum_{j=1}^NE(\gamma_{jk})}$

$\frac {\partial Q(\theta,\theta^{(i)})}{\partial \sigma_k^2}=\sum_{j=1}^N E(\gamma_{jk})[-\frac {1} {2\sigma_k^2}+\frac {(y_j-\mu_k)^2} {2(\sigma_k^2)^2}]=0\\\sum_{j=1}^N E(\gamma_{jk})[(y_j-\mu_k)^2-\sigma_k^2]=0 \\ \hat \sigma_k^2=\frac {\sum_{j=1}^N E(\gamma_{jk})(y_j-\mu_k)^2} {\sum_{j=1}^N E(\gamma_{jk})}$

在 $\sum_{k=1}^K\alpha_k=1$ 的条件下对 $\alpha_k$ 求偏导并令其为0。采用拉格朗日乘子法，有：
$L(\theta)=Q(\theta,\theta^{(i)})+\lambda(\sum_{k=1}^K\alpha_k-1)$

$\frac {\partial L(\theta)}{\partial \alpha_k}=\frac{n_k}{\alpha_k}+\lambda=0 \iff \hat \alpha_k=-\frac{n_k}{\lambda}\\ \sum_{k=1}^K(n_k+\alpha_k\lambda)=0\\N+\lambda=0 \iff \lambda=-N \\ \hat \alpha_k=\frac {n_k} {N} = \frac {\sum_{j=1}^N E(\gamma_{jk})} {N}$

3.3 高斯混合模型参数估计的EM算法

$输入：观测数据y_1,y_2,...,y_N，高斯混合模型$

$输出：高斯混合模型参数$

取参数的初始值开始迭代
$E$ 步：依据当前模型参数，计算高斯分布模型 $k$ 对观测数据 $y_j$ 的响应度
$E(\gamma_{rk}|y,\theta)=\frac {\alpha_k\phi(y_j|\theta_k)} {\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)}$
$M$ 步：计算新一轮迭代的模型参数
$\hat \mu_k=\frac {\sum_{j=1}^NE(\gamma_{jk})y_j} {\sum_{j=1}^NE(\gamma_{jk})} \\ \hat \sigma_k^2=\frac {\sum_{j=1}^N E(\gamma_{jk})(y_j-\mu_k)^2} {\sum_{j=1}^N E(\gamma_{jk})} \\ \hat \alpha_k= \frac {\sum_{j=1}^N E(\gamma_{jk})} {N}$
重复第2步和第3步，直到收敛

何如千泷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法之EM算法

EM算法一般地，用YYY表示观测随机变量的数据，ZZZ表示隐随机变的数据。YYY和ZZZ连在一起称为完全数据。假设给定观测数据YYY，其概率分布是P(Y∣θ)P(Y|\theta)P(Y∣θ)，其中θ\thetaθ是需要估计地模型参数。EM算法通过迭代求L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)L(θ)=logP(Y∣θ)的极大似然估计。每次迭代包含两步：EEE步，求期望；MMM步，求极大化。1. 算法流程输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z∣θ)
复制链接

扫一扫