机器学习算法——EM算法_em算法具有通用求解形式-CSDN博客

本文链接：https://blog.csdn.net/VictoriaW/article/details/51765027

介绍

理论分析

现在,已经知道目标函数（似然函数）

max J (Θ) = P (X | Θ),

$\max\ J(\Theta) = P(X|\Theta),$ 假设隐变量为Z,那么可以写成

J (Θ) = \sum Z P (X, Z | Θ),

$\ J(\Theta)=\sum_{Z}P(X,Z|\Theta),$
我们假设当前的参数为

Θi $\Theta^{i}$ ,那么可以得到

J (Θ) - J (Θ i) = log P (X | Θ) - log P (X | Θ i) = log \sum Z P (X, Z | Θ) - log P (X | Θ i) = log \sum Z P (Z | X, Θ i) P ( X , Z | Θ ) P ( Z | X , Θ i ) - log P (X | Θ i) \geq \sum Z P (Z | X, Θ i) log P ( X , Z | Θ ) P ( Z | X , Θ i ) - log P (X | Θ i) .

$\begin{align} J(\Theta)-J(\Theta^{i}) & = \log P(X|\Theta)-\log P(X|\Theta^{i}) \\ & = \log\sum_{Z}P(X,Z|\Theta)-\log P(X|\Theta^{i}) \\ & = \log\sum_{Z}P(Z|X,\Theta^{i}){\frac{P(X,Z|\Theta)}{P(Z|X,\Theta^{i})}}-\log P(X|\Theta^{i}) \\ & \ge \sum_{Z}P(Z|X,\Theta^{i})\log {\frac{P(X,Z|\Theta)}{P(Z|X,\Theta^{i})}}-\log P(X|\Theta^{i}). \\ \end{align}$
最后的不等式用的是Jenson不等式，即当

f(x) $f(x)$ 为凸函数时,有

f (E (x)) \geq E (f (x)) .

$f(E(x))\ge E(f(x)).$

另不等式右边的项为 $B(\Theta,\Theta^{i})$ ,那么可以得到:

J (Θ i) = B (Θ, Θ i) .

$\ J(\Theta^{i})=B(\Theta,\Theta{i}).$
现在知道

J(Θ) $J(\Theta)$ 的下界函数为

B (Θ, Θ i) + J (Θ i)

$B(\Theta,\Theta{i})+J(\Theta^{i})$ ,只要求得参数

Θ $\Theta$ 使得

B(Θ,Θi) $B(\Theta,\Theta^{i})$ 增加,就可以保证

J(Θ) $J(\Theta)$ 也是增加的.于是优化目标转换成最大化

B(Θ,Θi) $B(\Theta,\Theta^{i})$ ,并且可以进一步化简,即去除关于

Θ $\Theta$ 的常数项,于是得到EM算法中最重要的

Q $Q$ 函数:

Q (Θ, Θ i) = \sum Z P (Z | X, Θ i) log P (X, Z | Θ) = E Z [log P (X, Z | Θ) | (X, Θ i) .]

$\begin{align} Q(\Theta,\Theta^{i}) & = \sum_{Z}P(Z|X,\Theta^{i})\log {P(X,Z|\Theta)} \\ & = E_Z[\log P(X,Z|\Theta) | (X,\Theta^{i}).] \end{align}$
以上的推导来自于参考文献[1].
在别的地方有看到过另一种解释方法,引入了

Z $Z$ 的分布函数,并利用到泛函及KL散度,等后面有机会碰到,详细理解之后再补充本文.

例:高斯混合模型

高斯混合模型是多个高斯分布的线性组合，可以用来拟合比较复杂的分布函数。形式如下：

P (x) = \sum k = 1 K α k N (x | (μ k, σ 2 k)) (1)

$P(x)=\sum_{k=1}^K\alpha_kN(x|(\mu_k,\sigma_k^2)) \tag 1$ ，其中

N (x | (μ k, σ k)) = 1 2 π - - \sqrt σ k exp {- ( x - μ k ) 2 2 σ 2 k} (2)

$N(x|(\mu_k,\sigma_k))=\frac{1}{\sqrt{2\pi}\sigma_k}\exp\{\frac{-(x-\mu_k)^2}{2\sigma_k^2}\} \tag 2$
于是这个概率模型的参数

Θ=(αk,μk,σk) $\Theta=({\alpha_k},{\mu_k},{\sigma_k})$ 。为了得到高斯混合模型，需要得到这些参数的值。
假设样本的生成过程由高斯混合分布给出。首先，根据

α1,…,αK $\alpha_1,\ldots, \alpha_K$ 定义的先验分布选择高斯混合成分，其中

αk $\alpha_k$ 为选择第

k $k$ 个混合成分的概率；然后，根据被选择的混合成分的概率密度函数进行采样，从而生成相应的样本。从(1)式代表的分布中采样，数据点x来自第k个分模型的概率为

αkN(x|(μk,σk)) $\alpha_kN(x|(\mu_k,\sigma_k))$ 。
假设我们已经以分布

P(x) $P(x)$ 采样得到样本集

{x1,x2,...,xN} $\{x_1,x_2,...,x_N\}$ 。这样样本来自哪个模型，就可以看作是隐藏状态，我们用随机变量

znk $z_{nk}$ 表示

xn $x_n$ 是否来自第k个模型：

z n k = {0, 1, if x n comes from m o d e l k if x n doesn't come from m o d e l k . (3)

$z_{nk}= \begin{cases} 0, & \text{if $x_n$ comes from $model_k$}\\ 1,&\text{if $x_n$ doesn't come from $model_k$} \tag 3 \end{cases}.$
于是，对每个样本点，我们有一组随机变量

zn=(zn1,zn2,...,znK) $z_n=(z_{n1},z_{n2},...,z_{nK})$ 。Great！这些变量就是隐变量！现在可以用到刚好适用于含有隐变量的概率模型的参数学习的算法——EM算法。从前面对EM算法的介绍中，我们已经知道了，EM算法需要求解两组概率

P(z|x,Θ) $P(z|x,\Theta)$ ,

P(x,z|Θ) $P(x,z|\Theta)$ ：

P (z n k = 1 | x n, Θ) = P ( z n k , x n | Θ ) P ( x n | Θ ) = α k N ( x | ( μ k , σ k ) \sum K k = 1 α k N ( x | ( μ k , σ k ) ) (4)

$\begin{align} P(z_{nk}=1|x_n,\Theta) & = \frac{P(z_{nk},x_n|\Theta)}{P(x_n|\Theta)}\\ & = \frac{\alpha_kN(x|(\mu_k,\sigma_k)}{\sum_{k=1}^K\alpha_kN(x|(\mu_k,\sigma_k))} \tag 4 \end{align}$
不难理解，(4)式也可以写成：

E ((z n k) | x n, Θ) = P (z n k = 1 | x n, Θ)

$\ E((z_{nk})|x_n,\Theta)=P(z_{nk}=1|x_n,\Theta)$
另一方面：

P (X, Z | Θ) = \prod n = 1 N P (x n, z n) = \prod n = 1 N P (x n, (z n 1, z n 2, . . ., z n K) | Θ) = \prod n = 1 N \prod k = 1 K (α k N (x | (μ k, σ k)) z n k

$\begin{align} P(X,Z|\Theta) &= \prod_{n=1}^NP(x_n,z_n)\\ & = \prod_{n=1}^NP(x_n,(z_{n1},z_{n2},...,z_{nK})|\Theta)\\ & = \prod_{n=1}^N\prod_{k=1}^K(\alpha_kN(x|(\mu_k,\sigma_k))^{z_{nk}} \end{align}$
取对数，得

l o g P (X, Z | Θ) = \sum n = 1 N \sum k = 1 K z n k l o g α k + \sum n = 1 N \sum k = 1 K z n k l o g N (x | μ k, σ k) (5)

$logP(X,Z|\Theta)=\sum_{n=1}^N\sum_{k=1}^Kz_{nk}log\alpha_k+\sum_{n=1}^N\sum_{k=1}^Kz_{nk}logN(x|\mu_k,\sigma_k) \tag 5$
于是高斯混合模型的Q函数为：

Q (Θ, Θ i) = E Z [log P (X, Z | Θ) | (X, Θ i)] = \sum n = 1 N \sum k = 1 K E (z n k | x n, θ i) l o g α k + \sum n = 1 N \sum k = 1 K E (z n k | x n, θ i) l o g N (x | μ k, σ k) (6)

$\begin{align} Q(\Theta,\Theta^{i}) & = E_Z[\log P(X,Z|\Theta) | (X,\Theta^{i})]\\ &=\sum_{n=1}^N\sum_{k=1}^KE(z_{nk}|x_n,\theta^i)log\alpha_k+\sum_{n=1}^N\sum_{k=1}^KE(z_{nk}|x_n,\theta^i)logN(x|\mu_k,\sigma_k) \end{align} \tag 6$
把(2)和(4)代入，对每个参数求导，导数为0的点即

Θi+1 $\Theta^{i+1}$ 对应的参数。