EM

最新推荐文章于 2024-07-01 08:55:01 发布

kakak_

最新推荐文章于 2024-07-01 08:55:01 发布

阅读量256

点赞数

分类专栏： Data mining

本文链接：https://blog.csdn.net/kakak_/article/details/105430285

版权

Data mining 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

期望最大化（Expectation-Maximum）算法，是隐式马尔科夫算法(HMM), LDA主题模型变分推断的基础算法。
从样本观察数据中，找出样本的模型参数，最常用的方法就是极大化模型分布的对数似然函数。但有时得到的观察数据有未观察到的隐含数据，因而无法直接用极大化对数似然函数得到模型分布的参数。
可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解模型参数（EM算法的M步)。
由于之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是理想结果。所以基于当前得到的模型参数，继续猜测隐含数据（EM算法的E步），然后继续极大化对数似然，求解模型参数（EM算法的M步)。
以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

EM算法

~~（如不易懂可先看下方EM算法在混合高斯分布的实现GMM）~~

对于𝑚个样本观察数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ ，找出样本的模型参数𝜃, 极大化模型分布的对数似然函数 $\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m logP(x^{(i)};\theta)$
如果得到的观察数据有未观察到的隐含数据 $z=(z^{(1)},z^{(2)},...z^{(m)})$ ，则极大化模型分布的对数似然函数 $\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m logP(x^{(i)};\theta) = arg \max \limits_{\theta}\sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta)$
上式无法直接求出𝜃，根据Jensen不等式： $log\sum\limits_j\lambda_jy_j \geq \sum\limits_j\lambda_jlogy_j\;\;,$ $\lambda_j \geq 0, \sum\limits_j\lambda_j =1$ $y_i =c时等式成立，c为常数$ 对其进行缩放 $\sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta) = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})}$ $\geq \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})}$ 其中 $\sum\limits_{z}Q_i(z^{(i)}) =1$
等式成立则 $\frac{P(x^{(i)}, z^{(i)};\theta)}{Q_i(z^{(i)})} =c,c=\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta)$ $Q_i(z^{(i)}) = \frac{P(x^{(i)}， z^{(i)};\theta)}{\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta)} = \frac{P(x^{(i)}， z^{(i)};\theta)}{P(x^{(i)};\theta)} = P( z^{(i)}|x^{(i)};\theta)$
极大化下限： $\max \limits_{\theta} \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})}$ 去除常数项： $\max \limits_{\theta} \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)};\theta)}$ $log{P(x^{(i)}, z^{(i)};\theta)}$ 基于条件概率分布 $Q_i(z^{(i)})$ 的期望。

高斯混合模型（Gaussian Mixture Model，GMM）

GMM Gaussian Mixture Model是EM算法在混合高斯分布的实现
假设有一批由K个高斯分布生成器生成的数据 $X=\{X_1,X_2,...,X_n\}$ ，具体 $X_i$ 对应哪个生成器是未知的，而且每个生成器在混合模型中所占的比例 $π_i$ 也是未知的，那么此时的分布就是高斯混合分布。
正态分布： $X\sim \mathcal{N}(\mu, \sigma^2)$ 概率密度函数 $p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 协方差 $cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y)$ 其中X，Y为两个随机变量
多维高斯正态分布概率密度函数 $\mathcal{N}(x\mid\mu,\Sigma)=\frac{1}{\sqrt{{2\pi}^n|\Sigma|}}exp\Big(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\Big)$ 其中Σ是协方差矩阵（对称半正定的矩阵）， $Σ^{−1}$ 是协方差矩阵的逆
高斯混合模型（GMM）概率密度函数： $p(x)=\sum_{k=1}^Kp(k)p(x|k)=\sum_{k=1}^K\pi_k\mathcal{N}(x|\mu_k,\Sigma_k)$ 其中 $\sum_{i=1}^K\pi_i=1$
最大似然法使样本点在估计的概率密度函数上的概率值最大。为了防止在计算过程中产生溢出现象，将目标函数取对数进行计算： $\max\sum_{i=1}^N\log\Big(\sum_{k=1}^K\pi_k\mathcal{N}(x_i|\mu_k,\sigma_k)\Big)$

初始化 $π_k$ 与 $Σ_k$
估计数据由每个组件生成的概率： $\gamma(i,k)=\frac{\pi_k\mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum_{j=1}^K\pi_j\mathcal{N}(x_i|\mu_j,\Sigma_j)}$
迭代更新直至似然函数收敛 $\mu_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(i,k)x_i$ $\Sigma_k=\frac{1}{N_k}\sum_{i=1}^N\gamma(i,k)(x_i-\mu_k)(x_i-\mu_k)^T$ $N_k=\sum_{i=1}^N\gamma(i,k)$ $π_k=\frac{N_k}{N}$

算法流程

输入：观察数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ ，联合分布 𝑝(𝑥,𝑧;𝜃) , 条件分布 𝑝(𝑧|𝑥;𝜃) , 最大迭代次数𝐽。
输出：模型参数𝜃。

随机初始化模型参数𝜃的初值 $\theta_0$ 。
开始EM算法迭代J:
- E步：计算联合分布的条件概率期望： $Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)}，\theta^{j}))$ $L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}， z^{(i)};\theta)}$
- M步：极大化 $L(\theta, \theta^{j})$ ，得到 $\theta^{j+1}$ : $\theta^{j+1} = arg \max \limits_{\theta}L(\theta, \theta^{j})$
- 如果 $\theta^{j+1}$ 已收敛，则算法结束。否则继续进行E步迭代。