EM Algorithm

最新推荐文章于 2022-03-28 11:31:43 发布

patrick_psq

最新推荐文章于 2022-03-28 11:31:43 发布

阅读量184

点赞数

分类专栏： Machine Learning 文章标签： Machine Learning

本文链接：https://blog.csdn.net/patrick_psq/article/details/79101563

版权

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

I would like to talk something about EM algorithm in my understanding.

This post is mainly based on Richard Xu’s machine learning course.

Gaussian Mixture Model

Gaussian Mixture Model (GMM) (k-mixture) is defined as:

p (X | Θ) = \sum l = 1 k α l  (X | μ l, Σ l) (1)

$p(X | \Theta) = \sum_{l=1}^k \alpha_l \mathcal{N}(X | \mu_l, \Sigma_l) \tag{1}$

\sum l = 1 k α l = 1 (2)

$\sum_{l=1}^k \alpha_l = 1 \tag{2}$

and

Θ = {α 1, \dots, α k, μ 1, \dots, μ k, Σ 1, \dots, Σ k} (3)

$\Theta = \{ \alpha_1, \dots, \alpha_k, \mu_1, \dots, \mu_k, \Sigma_1, \dots, \Sigma_k \} \tag{3}$

For data $X = \{ x_1, \dots, x_n \}$ , we introduce latent variable $Z = \{ z_1, \dots, z_n \}$ , each $z_i$ indicates which mixture components $x_i$ belongs to. (The introduction of latent variable should not change the marginal distribution of $p(X)$ .)

Then we can use MLE to estimate $\Theta$ :

Θ M L E = arg max Θ (\sum i = 1 N log [\sum l = 1 k α l  (x i | μ l, Σ l)]) (4)

$\Theta_{MLE} = \mathop{\arg\max}\limits_{\Theta} \Big( \sum_{i=1}^N \log \big[ \sum_{l=1}^k \alpha_l \mathcal{N}(x_i | \mu_l, \Sigma_l) \big] \Big) \tag{4}$

This formula is difficult to solve because it is in ‘log-of-sum’ form. So, we solve this problem in an iterative way, called Expectation Maximization.

Expectation Maximization

Instead of performing

Θ M L E = arg max Θ ( (Θ)) = arg max Θ (log (p (X | Θ))) (5)

$\Theta_{MLE} = \mathop{\arg\max}\limits{\Theta} \Big( \mathcal{L}(\Theta) \Big) = \mathop{\arg\max}\limits_{\Theta} \Big( \log \big( p(X|\Theta) \big ) \Big) \tag{5}$
we assume some latent variable

Z $Z$ to the model, such that we generate a series of

Θ={Θ(1),Θ(2),…,Θ(t)} $\Theta = \{ \Theta^{(1)}, \Theta^{(2)}, \dots, \Theta^{(t)} \}$ .

For each iteration of the E-M algorithm, we perform:

Θ (g + 1) = arg max Θ (\int Z log (p (X, Z | Θ) p (Z | X, Θ (g)))) d Z (6)

$\Theta^{(g+1)} =\mathop{\arg\max}\limits_{\Theta} \Big( \int_Z \log \big( p(X, Z | \Theta) p (Z | X, \Theta^{(g)}) \big) \Big) dZ \tag{6}$

We must ensure convergence:

log p (X | Θ (g + 1)) \geq log p (X | Θ (g)) (7)

$\log p(X|\Theta^{(g+1)}) \ge \log p(X|\Theta^{(g)}) \tag{7}$
Proof :

E p (Z | X, Θ (g)) [log p (X | Θ)] = E p (Z | X, Θ (g)) [log p (X, Z | Θ) - log p (Z | X, Θ)] (8)

$E_{p(Z|X, \Theta^{(g)})} \Big[\log p(X|\Theta) \Big] = E_{p(Z|X, \Theta^{(g)})} \Big[\log p(X,Z|\Theta) - \log p(Z|X,\Theta) \Big] \tag{8}$

log p (X | Θ) = \int Z log p (X, Z | Θ) p (Z | X, Θ (g)) d Z - \int Z log p (Z | X, Θ) p (Z | X, Θ (g)) d Z (9)

$\log p(X|\Theta) = \int_Z \log p(X,Z|\Theta) p(Z|X, \Theta^{(g)}) dZ - \int_Z \log p(Z|X,\Theta) p(Z|X, \Theta^{(g)}) dZ \tag{9}$

denote

Q (Θ, Θ (g)) = \int Z log p (X, Z | Θ) p (Z | X, Θ (g)) d Z H (Θ, Θ (g)) = \int Z log p (Z | X, Θ) p (Z | X, Θ (g)) d Z

$Q(\Theta, \Theta^{(g)}) = \int_Z \log p(X,Z|\Theta) p(Z|X, \Theta^{(g)}) dZ \\ H(\Theta, \Theta^{(g)}) = \int_Z \log p(Z|X,\Theta) p(Z|X, \Theta^{(g)}) dZ$
then we have

log p (X | Θ) = Q (Θ, Θ (g)) - H (Θ, Θ (g)) (10)

$\log p(X|\Theta) =Q(\Theta, \Theta^{(g)}) - H(\Theta, \Theta^{(g)}) \tag{10}$
Because

Q (Θ (g), Θ (g)) \leq Q (Θ (g + 1), Θ (g)) H (Θ (g), Θ (g)) \geq H (Θ (g + 1), Θ (g))

$Q(\Theta^{(g)}, \Theta^{(g)}) \le Q(\Theta^{(g+1)}, \Theta^{(g)}) \\ H(\Theta^{(g)}, \Theta^{(g)}) \ge H(\Theta^{(g+1)}, \Theta^{(g)})$
the second inequality can be derived using Jensen’s inequality.

Hence ,

log p (X | Θ (g + 1)) \geq log p (X | Θ (g)) (11)

$\log p(X|\Theta^{(g+1)}) \ge \log p(X|\Theta^{(g)}) \tag{11}$

Using EM algorithm to solve GMM

Put GMM into this frame work.

Θ (g + 1) = arg max Θ [Q (Θ, Θ (g))] = arg max Θ (\int Z log (p (X, Z | Θ) p (Z | X, Θ (g)))) d Z (12)

$\Theta^{(g+1)} = \mathop{\arg\max}\limits_{\Theta} \big[ Q(\Theta, \Theta^{(g)}) \big] =\mathop{\arg\max}\limits_{\Theta} \Big( \int_Z \log \big( p(X, Z | \Theta) p (Z | X, \Theta^{(g)}) \big) \Big) dZ \tag{12}$
E-Step:

Define $p(X, Z | \Theta)$ :

p (X, Z | Θ) = Π n i = 1 p (x i, z i | Θ) = Π n i = 1 p (x i | z i, Θ) p (z i | Θ) = Π n i = 1 α z i  (μ z i, Σ z i) (13)

$p(X, Z | \Theta) = \Pi_{i=1}^n p(x_i, z_i | \Theta) = \Pi_{i=1}^n p(x_i|z_i, \Theta) p(z_i|\Theta) = \Pi_{i=1}^n \alpha_{z_i} \mathcal{N}(\mu_{z_i}, \Sigma_{z_i}) \tag{13}$
Define

p(Z|X,Θ) $p (Z | X, \Theta)$ :

p (Z | X, Θ) = Π n i = 1 p (z i | x i, Θ) = Π n i = 1 α z i  ( μ z i , Σ z i ) \sum k l = 1 α l  ( μ l , Σ l ) (14)

$p (Z | X, \Theta) = \Pi_{i=1}^{n} p(z_i|x_i, \Theta) = \Pi_{i=1}^{n} \frac{\alpha_{z_i} \mathcal{N} (\mu_{z_i}, \Sigma_{z_i})}{\sum_{l=1}^k \alpha_l \mathcal{N} (\mu_l, \Sigma_l)} \tag{14}$
Then

Q (Θ, Θ (g)) = \sum z 1 = 1 k \sum z 2 = 1 k \dots \sum z N = 1 k (\sum i = 1 N [log α z i + log  (μ z i, Σ z i)] * Π N i = 1 p (z i | x i, Θ (g))) = \sum i = 1 N \sum l = 1 k (log α l + log  (μ l, Σ l)) p (l | x i, Θ (g)) (15)

$Q(\Theta, \Theta^{(g)}) = \sum_{z_1= 1}^k \sum_{z_2= 1}^k \dots \sum_{z_N= 1}^k \Big( \sum_{i=1}^N \big[ \log \alpha_{z_i} + \log \mathcal{N}(\mu_{z_i}, \Sigma_{z_i}) \big] * \Pi_{i=1}^N p(z_i| x_i, \Theta^{(g)}) \Big) \\ = \sum_{i=1}^N \sum_{l = 1}^k \big( \log \alpha_{l} + \log \mathcal{N}(\mu_{l}, \Sigma_{l}) \big) p(l| x_i, \Theta^{(g)}) \tag{15}$
M-Step:

Q (Θ, Θ (g)) = \sum i = 1 N \sum l = 1 k log (α l) p (l | x i, Θ (g)) + \sum i = 1 N \sum l = 1 k log  (μ l, Σ l) p (l | x i, Θ (g)) (16)

$Q(\Theta, \Theta^{(g)}) = \sum_{i=1}^N \sum_{l = 1}^k \log (\alpha_{l}) p(l| x_i, \Theta^{(g)}) + \sum_{i=1}^N \sum_{l = 1}^k\log \mathcal{N}(\mu_{l}, \Sigma_{l}) p(l| x_i, \Theta^{(g)}) \tag{16}$
The first term contains only

α $\alpha$ and the second term contains only

μ,Σ $\mu, \Sigma$ , so we can maximize both terms independantly.

Maximizing $\alpha$ means that:

\partial \sum N i = 1 \sum k l = 1 log ( α l ) p ( l | x i , Θ ( g ) ) \partial α 1 \dots \partial α k = 0 (17)

$\frac{\partial \sum_{i=1}^N \sum_{l = 1}^k \log (\alpha_{l}) p(l| x_i, \Theta^{(g)})}{\partial\alpha_1 \dots \partial\alpha_k} = 0 \tag{17}$
subject to