Andrew Ng机器学习课程笔记（十四）之无监督学习之混合高斯模型与EM算法

最新推荐文章于 2023-08-08 01:10:24 发布

danerli

最新推荐文章于 2023-08-08 01:10:24 发布

阅读量1k

点赞数 1

分类专栏：机器学习人工智能机器学习——基础篇

本文链接：https://blog.csdn.net/danerer/article/details/80273694

版权

机器学习同时被 3 个专栏收录

21 篇文章 2 订阅

订阅专栏

机器学习——基础篇

19 篇文章 1 订阅

订阅专栏

人工智能

17 篇文章 0 订阅

订阅专栏

Preface
Gaussian Mixture Model
EM Algorithm for GMM

Preface

Gaussian Mixture Model（GMM，高斯混合模型）
EM Algorithm for GMM

Gaussian Mixture Model

GMM是对高斯判别模型（Gaussian Discriminant Analysis，GDL，前面有一篇博文介绍）的一个推广。同时和K-means聚类算法一样，对于没有标签的数据集 $\{x^{(1)},x^{(2)},...,x^{(m)}\}$ 进行分类。但是不同于K-means聚类算法，我们隐含类别标签用 $z^{(i)}$ 表示，并认为 $z^{(i)}$ 满足多项式分布，即为 $z^{(i)}\sim Multinomial(\phi),\phi_{j}=p(z^{(i)}=j)\;\;\;(\phi_{j}\ge 0,\underset{j=1}{\overset{k}{\sum}},\phi_{j}=1)$ ，且 $z\in\{1,2,...,k\}$ 。同时， $\{x^{(i)},z^{(i)}\}$ 的联合分布概率为 $p(x^{(i)},z^{(i)})=p(x^{(i)}|z^{(i)})p(z^{(i)})$ 。最后在 $z^{(i)}$ 给定的情况下， $x^{(i)}$ 的概率服从高斯分布，即为 $x^{(i)}|z^{(i)}=j\sim N(\mu_{j},\Sigma_{j})$ 。
整个模型简单描述为对于每个样例 $x^{(i)}$ ，我们先从k 个类别中按多项式分布抽取一个 $z^{(i)}$ ，然后根据 $z^{(i)}$ 所对应的k 个多值高斯分布中的一个生成样例 $x^{(i)}$ ，。整个过程称作混合高斯模型。
它的似然函数为：

l (ϕ, μ, Σ) = \sum m i = 1 l o g p (x (i); ϕ, μ, Σ) = \sum m i = 1 l o g \sum k z (i) = 1 p (x (i) | z (i); μ, Σ) p (z (i); ϕ)

$\begin{aligned} l(\phi,\mu,\Sigma)&=\underset{i=1}{\overset{m}{\sum}}log\; p(x^{(i)};\phi,\mu,\Sigma)\\ &= \underset{i=1}{\overset{m}{\sum}}log \underset{z^{(i)}=1}{\overset{k}{\sum}}p(x^{(i)}|z^{(i)};\mu,\Sigma)p(z^{(i)};\phi) \end{aligned}$

由于 $z^{(i)}$ 未知，上式我们无法使用求偏导，并令其等于0求得 $\phi,\mu,\Sigma$ 参数，故，在这里，我们假设 $z^{(i)}$ 已知，化简 $l(\phi,\mu,\Sigma)$ 为：

l (ϕ, μ, Σ) = \sum m i = 1 l o g p (x (i) | z (i); μ, Σ) + l o g p (z (i); ϕ)

$\begin{aligned}l(\phi,\mu,\Sigma)=\underset{i=1}{\overset{m}{\sum}}log\;p(x^{(i)}|z^{(i)};\mu,\Sigma)+log\;p(z^{(i)};\phi)\end{aligned}$

对比高斯判别模型的过程，在这里我们分别对 $\phi,\mu,\Sigma$ 求偏导，并令其等于0，便可以依次求得 $\phi,\mu,\Sigma$ 参数。

ϕ j = 1 m \sum m i = 1 1 {z (i) = j}

$\begin{aligned}\phi_{j}=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}\;1\{z^{(i)}=j\}\end{aligned}$

μ j = \sum m i = 1 1 { z ( i ) = j } x ( i ) \sum m i = 1 1 { z ( i ) = j }

$\begin{aligned}\mu_{j}=\frac{\underset{i=1}{\overset{m}{\sum}}\;1\{z^{(i)}=j\}x^{(i)}}{\underset{i=1}{\overset{m}{\sum}}\;1\{z^{(i)}=j\}} \end{aligned}$

Σ j = \sum m i = 1 1 { z ( i ) = j } ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 1 { z ( i ) = j }

$\begin{aligned}\Sigma_{j}=\frac{\underset{i=1}{\overset{m}{\sum}}\;1\{z^{(i)}=j\}(x^{(i)}-\mu_{j})(x^{(i)}-\mu_{j})^T}{\underset{i=1}{\overset{m}{\sum}}\;1\{z^{(i)}=j\}} \end{aligned}$

但是由于 $z^{(i)}$ 未知，我们无法使用高斯判别的方法来解决问题。这需要使用EM算法来解决。

EM Algorithm for GMM

回顾我们在上一篇博文中提到的EM算法

Repeat until convergence{

(E-step) for each i, set
$w (i) j : = Q i (z (i) = j) : = p (z (i) = j | x (i); θ)$ $\begin{aligned} w_j^{(i)}:=Q_{i}(z^{(i)}=j):=p(z^{(i)}=j|x^{(i)};\theta) \end{aligned}$
(M-step) set
$θ : = arg max θ \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )$ $\begin{aligned}\theta:=\text{arg}\;\;\underset{\theta}{\text{max}}\;\;\underset{i}{\sum}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})} \end{aligned}$

｝

使用GMM中的 $\phi,\mu,\Sigma$ 参数替换一般化EM算法中的 $\theta$ 参数，然后在依次解决 $w_j^{(i)}$ 与 $\phi,\mu,\Sigma$ 参数的更新问题就好。

E-Step

w (i) j = Q i (z (i) = j) = p (z (i) = j | x (i); θ) = P ( x ( i ) | z ( i ) = j ) P ( z ( i ) = j ) \sum k ( P ( x ( i ) | z ( i ) = k ) P ( z ( i ) = k ) ) (1) (2) (3)

$\begin{aligned} w_j^{(i)}&=Q_{i}(z^{(i)}=j) &(1)\\ &=p(z^{(i)}=j|x^{(i)};\theta) &(2)\\ &=\frac {P(x^{(i)}|z^{(i)}=j)P(z^{(i)}=j)}{\sum_k (P(x^{(i)}|z^{(i)}=k)P(z^{(i)}=k))} &(3) \end{aligned}$

$w_j^{(i)}$ 的含义十每个样例 $i$ 的隐含类别 $z(i)$ 为 $j$ 的概率。同时，上式中的步骤（2）到步骤（3）可由贝叶斯公式直接得到。根据GMM，我们可以知道 $x^{(i)}|z^{(i)}=j\sim N(\mu_{j},\Sigma_{j})$ 和 $z^{(i)}\sim Multinomial(\phi),\phi_{j}=p(z^{(i)}=j)$ 。这样一来我们就可以计算 $w_j^{(i)}$ 了。

M-Step

我们得到的是：

arg max ϕ, μ, Σ = = \sum m i = 1 \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; ϕ , μ , Σ ) Q i ( z ( i ) ) arg max ϕ, μ, Σ \sum m i = 1 \sum k j = 1 Q i (z (i)) l o g p ( x ( i ) | z ( i ) = j ; μ , Σ ) p ( z ( i ) = j ; ϕ ) Q i ( z ( i ) ) arg max ϕ, μ, Σ \sum m i = 1 \sum k j = 1 ω (i) j l o g 1 ( 2 π ) n 2 | Σ j | 1 2 e x p ( - 1 2 ( x ( i ) - μ j ) T Σ - 1 j ( x ( i ) - μ j ) ) \cdot ϕ j ω ( i ) j

$\begin{aligned} \text{arg}\;\;\underset{\phi,\mu,\Sigma}{\text{max}}\;\; &\underset{i=1}{\overset{m}{\sum}}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log \frac{p(x^{(i)},z^{(i)};\phi,\mu,\Sigma)}{Q_{i}(z^{(i)})}\\ = &\text{arg}\;\;\underset{\phi,\mu,\Sigma}{\text{max}}\;\;\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}Q_{i}(z^{(i)})log \frac{p(x^{(i)}|z^{(i)}=j;\mu,\Sigma)p(z^{(i)}=j;\phi)}{Q_{i}(z^{(i)})}\\ = &\text{arg}\;\;\underset{\phi,\mu,\Sigma}{\text{max}}\;\;\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}log\frac{\frac{1}{(2\pi)^{\frac{n}{2}}\left|\Sigma_{j}\right|^\frac{1}{2}}exp(-\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma_{j}^{-1}(x^{(i)}-\mu_{j}))\cdot\phi_{j}}{\omega_{j}^{(i)}} \end{aligned}$

基于参数μ的函数最大化

对参数 $μ$ 的每个分量 $μ_l$ 求偏导：

= = = ▽ μ l \sum m i = 1 \sum k j = 1 ω (i) j l o g 1 ( 2 π ) n 2 | Σ j | 1 2 e x p ( - 1 2 ( x ( i ) - μ j ) T Σ - 1 j ( x ( i ) - μ j ) ) \cdot ϕ j ω ( i ) j - ▽ μ l \sum m i = 1 \sum k j = 1 ω (i) j 1 2 (x (i) - μ j) T Σ - 1 j (x (i) - μ j) 1 2 \sum m i = 1 ω (i) l Δ μ l (2 μ T l Σ - 1 l x (i) - μ T l Σ - 1 l μ l) \sum m i = 1 ω (i) l Σ - 1 l (x (i) - μ l)

$\begin{aligned}&\triangledown_{\mu_{l}}\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}log\frac{\frac{1}{(2\pi)^{\frac{n}{2}}\left|\Sigma_{j}\right|^\frac{1}{2}}exp(-\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma_{j}^{-1}(x^{(i)}-\mu_{j}))\cdot\phi_{j}}{\omega_{j}^{(i)}}\\ =&-\triangledown_{\mu_{l}}\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma_{j}^{-1}(x^{(i)}-\mu_{j})\\= &\frac{1}{2}\underset{i=1}{\overset{m}{\sum}}\omega_{l}^{(i)}\Delta_{\mu_{l}}(2\mu_{l}^{T}\Sigma_{l}^{-1}x^{(i)}-\mu_{l}^{T}\Sigma_{l}^{-1}\mu_{l})\\=&\underset{i=1}{\overset{m}{\sum}}\omega_{l}^{(i)}\Sigma_{l}^{-1}(x^{(i)}-\mu_{l}) \end{aligned}$

令上式等于0，可以得到：

μ l : = \sum m i = 1 ω ( i ) l x ( i ) \sum m i = 1 ω ( i ) l

$\begin{aligned} \mu_{l}:=\frac{\sum_{i=1}^{m}\omega_{l}^{(i)}x^{(i)}}{\sum_{i=1}^{m}{\omega_{l}^{(i)}}} \end{aligned}$

基于参数ϕ的函数最大化

因为与参数 $ϕ$ 相关的变量仅有 $\omega_{j}^{(i)}$ ，所以我们可以将函数最大化问题优化为求下式的最大化问题：

arg max ϕ \sum m i = 1 \sum k j = 1 ω (i) j l o g ϕ j

$\begin{aligned}\text{arg}\;\;\underset{\phi}{\text{max}}\;\; \underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}log\phi_{j}\end{aligned}$

同时，由于 $\sum_{j=1}^{k}\phi_{j}=1$ ，所以我们使用拉格朗日乘数法可以得到目标函数：

L (ϕ) = \sum m i = 1 \sum k j = 1 ω (i) j l o g ϕ j + β (\sum k j = 1 ϕ j - 1)

$\begin{aligned} \mathcal L(\phi)=\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}log\phi_{j}+\beta(\underset{j=1}{\overset{k}{\sum}}\phi_{j}-1) \end{aligned}$

对参数 $ϕ$ 求偏导：

\begin{aligned} \frac{\partial}{\partial ϕ_{j}} L (ϕ) = \underset{i = 1}{\sum^{m}} \frac{ω_{j} (i)}{ϕ_{j}} + 1 \end{aligned}

$\begin{aligned} \frac{\partial}{\partial \phi_{j}} \mathcal L(\phi)=\underset{i=1}{\overset{m}{\sum}}\frac{\omega_{j}{(i)}}{\phi_{j}}+1 \end{aligned}$

令上式等于0，可以得到：

ϕ j = \sum m i = 1 ω ( i ) j - β

$\begin{aligned} \phi_{j}=\frac { {\sum}_{i=1}^m\omega_{j}^{(i)}}{-\beta} \end{aligned}$

因为 $\sum_{j=1}^{k}\phi_{j}=1$ ，所以：

\sum k j = 1 ϕ j 1 - β - β - β = \sum k j = 1 \sum m i = 1 ω ( i ) j - β = \sum k j = 1 \sum m i = 1 ω ( i ) j - β = \sum m i = 1 \sum k j = 1 ω (i) j = \sum m i = 1 1 = m

$\begin{aligned} {\sum}_{j=1}^k\phi_{j}&={\sum}_{j=1}^k \frac{{\sum}_{i=1}^m\omega_{j}^{(i)}}{-\beta}\\ 1&={\sum}_{j=1}^k \frac{{\sum}_{i=1}^m\omega_{j}^{(i)}}{-\beta}\\ {-\beta}&={{\sum}_{i=1}^m {\sum}_{j=1}^k \omega_{j}^{(i)}}\\ {-\beta}&={\sum}_{i=1}^m 1\\ {-\beta}&=m\\ \end{aligned}$

所以：

ϕ j : = \sum m i = 1 ω ( i ) j m

$\begin{aligned} \phi_{j}:=\frac { {\sum}_{i=1}^m\omega_{j}^{(i)}}{m} \end{aligned}$

基于参数Σ的函数最大化

对参数 $Σ$ 求偏导：

\begin{aligned} ▽_{Σ_{j}} \underset{i = 1}{\sum^{m}} \underset{j = 1}{\sum^{k}} ω_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{\frac{n}{2}} {| Σ_{j} |}^{\frac{1}{2}}} e x p (- \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j})) \cdot ϕ_{j}}{ω_{j}^{(i)}} \\ = & ▽_{Σ_{j}} \underset{i = 1}{\sum^{m}} \underset{j = 1}{\sum^{k}} ω_{j}^{(i)} [- \frac{n}{2} l o g 2 π - \frac{1}{2} l o g | Σ_{j} | - \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j}) + l o g ϕ_{j} - l o g ω_{j}^{(i)}] \\ = & \underset{i = 1}{\sum^{m}} \underset{j = 1}{\sum^{m}} ω_{j}^{(i)} \frac{1}{2} Σ_{j}^{- T} + \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ^{- 2} (x^{(i)} - μ_{j}) \end{aligned}

$\begin{aligned}&\triangledown _{\Sigma_{j}} \underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}}\omega_{j}^{(i)}log\frac{\frac{1}{(2\pi)^{\frac{n}{2}}\left|\Sigma_{j}\right|^\frac{1}{2}}exp(-\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma_{j}^{-1}(x^{(i)}-\mu_{j}))\cdot\phi_{j}}{\omega_{j}^{(i)}}\\ =&\triangledown_{\Sigma_{j}}\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{k}{\sum}} \omega_{j}^{(i)}[-\frac{n}{2}log2\pi-\frac{1}{2}log\left|\Sigma_{j}\right|-\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma_{j}^{-1}(x^{(i)}-\mu_{j})+log\phi_{j}-log\omega_{j}^{(i)}]\\=&\underset{i=1}{\overset{m}{\sum}}\underset{j=1}{\overset{m}{\sum}}\omega_{j}^{(i)}\frac{1}{2}\Sigma_{j}^{-T}+\frac{1}{2}(x^{(i)}-\mu_{j})^{T}\Sigma^{-2}(x^{(i)}-\mu_{j}) \end{aligned}$

令上式等于0，可以得到：

Σ j : = \sum m i = 1 ω ( i ) j ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 ω ( i ) j

$\begin{aligned} \Sigma_{j}:=\frac{\sum_{i=1}^{m}\omega_{j}^{(i)} (x^{(i)}-\mu_{j})(x^{(i)}-\mu_{j})^{T} }{ \sum_{i=1}^{m}\omega_{j}^{(i)} } \end{aligned}$

EM Algorithm for GMM

所以EM Algorithm for GMM的E-step与M-step为：

Repeat until convergence{

(E-step) for each i, set
$w (i) j = P ( x ( i ) | z ( i ) = j ) P ( z ( i ) = j ) \sum k ( P ( x ( i ) | z ( i ) = k ) P ( z ( i ) = k ) )$ $\begin{aligned} w_j^{(i)} &=\frac {P(x^{(i)}|z^{(i)}=j)P(z^{(i)}=j)}{\sum_k (P(x^{(i)}|z^{(i)}=k)P(z^{(i)}=k))} \end{aligned}$
(M-step) set

μ l : = \sum m i = 1 ω ( i ) l x ( i ) \sum m i = 1 ω ( i ) l

$\begin{aligned} \mu_{l}:=\frac{\sum_{i=1}^{m}\omega_{l}^{(i)}x^{(i)}}{\sum_{i=1}^{m}{\omega_{l}^{(i)}}} \end{aligned}$

ϕ j : = \sum m i = 1 ω ( i ) j m

$\begin{aligned} \phi_{j}:=\frac { {\sum}_{i=1}^m\omega_{j}^{(i)}}{m} \end{aligned}$

Σ j : = \sum m i = 1 ω ( i ) j ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 ω ( i ) j

$\begin{aligned} \Sigma_{j}:=\frac{\sum_{i=1}^{m}\omega_{j}^{(i)} (x^{(i)}-\mu_{j})(x^{(i)}-\mu_{j})^{T} }{ \sum_{i=1}^{m}\omega_{j}^{(i)} } \end{aligned}$

｝

danerli

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Andrew Ng机器学习课程笔记（十四）之无监督学习之混合高斯模型与EM算法

PrefaceGaussian Mixture ModelJensen’s InequalityExpectation-Maximization Algorithm（EM）EM Algorithm for GMMPrefaceGaussian Mixture Model（GMM，高斯混合模型） Jensen’s Inequality（Jensen不等式） Exp...
复制链接

扫一扫

专栏目录