机器学习：高斯混合模型及EM算法

最新推荐文章于 2024-05-23 15:24:27 发布

Matrix_11

最新推荐文章于 2024-05-23 15:24:27 发布

阅读量9.1k

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

113 篇文章 145 订阅

订阅专栏

Mixtures of Gaussian

这一讲，我们讨论利用EM (Expectation-Maximization)做概率密度的估计。假设我们有一组训练样本 ${x^{(1)}, x^{(2)},...x^{(m)}}$ ,因为是unsupervised的学习问题，所以我们没有任何y的信息。

我们希望利用一个联合分布 $p(x^{(i)}, z^{(i)})=p(x^{(i)}|z^{(i)})p(z^{(i)})$ 来拟合这些数据, 其中 $z^{(i)} \sim \text{Multinomial} (\phi)$ ( $\phi_{j} \geqslant 0$ , $\sum_{j=1}^{k}\phi_{j}=1$ ,参数 $\phi_{j}$ 给出了概率 $p(z^{(i)}=j)$ )，并且 $x^{(i)}|z^{(i)} =j \sim N(\mu_{j}, \Sigma_{j})$ ，我们让k表示 $z^{(i)}$ 可能值的个数，因此在这个模型中，每一个训练样本 $x^{(i)}$ 是由随机取某一个值的变量 $z^{(i)}$ 生成的，所以 $x^{(i)}$ 是从k个的高斯分布中的一个(由 $z^{(i)}$ 指示)提取出来的。这个称为高斯混合模型，我们也要注意到 $z^{(i)}$ 是隐含的随机变量，高斯混合模型涉及的参数是 $\phi, \mu, \Sigma$ ，为了估计这些变量，我们可以建立如下的表达式：

l (ϕ, μ, Σ) = \sum i = 1 m log p (x (i); ϕ, μ, Σ) = \sum i = 1 m log \sum z (i) = 1 k p (x (i) | z (i); μ, Σ) p (z (i), ϕ)

$\begin{equation*} \begin{split} l(\phi, \mu, \Sigma) & =\sum_{i=1}^{m}\text{log} p(x^{(i)}; \phi, \mu, \Sigma) \\ & =\sum_{i=1}^{m} \text{log} \sum_{z^{(i)}=1}^{k} p(x^{(i)}|z^{(i)} ;\mu, \Sigma)p(z^{(i)}, \phi) \end{split} \end{equation*}$

我们发现，通过求偏导数求极值的方法，无法得到这些参数的解，从上面的表达式可以看出，随机变量 $z^{(i)}$ 告诉了我们 $x^{(i)}$ 是从k个高斯分布中的其中一个生成的，如果我们知道是哪一个高斯分布，或者说如果知道 $z^{(i)}$ 的值，那我们可以利用最大似然估计的方法估计参数
$\phi, \mu,\Sigma$ ，如果 $z^{(i)}$ 已知，那么上式可以写成：

l (ϕ, μ, Σ) = \sum i = 1 m log p (x (i) | z (i); μ, Σ) + log p (z (i), ϕ)

$l(\phi, \mu, \Sigma) = \sum_{i=1}^{m} \text{log} p(x^{(i)}|z^{(i)} ;\mu, \Sigma) + \text{log}p(z^{(i)}, \phi)$
利用最大似然估计，可以求得这些参数为：

ϕ j μ j Σ j = 1 m \sum i = 1 m 1 {z (i) = j} = \sum m i = 1 1 { z ( i ) = j } x ( i ) \sum m i = 1 1 { z ( i ) = j } = \sum m i = 1 1 { z ( i ) = j } ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 1 { z ( i ) = j }

$\begin{equation*} \begin{split} \phi_{j} & =\frac{1}{m} \sum_{i=1}^{m} 1\{z^{(i)}=j\} \\ \mu_{j}& =\frac{\sum_{i=1}^{m} 1\{z^{(i)}=j\} x^{(i)}} { \sum_{i=1}^{m} 1\{z^{(i)}=j\} } \\ \Sigma_{j} & = \frac{\sum_{i=1}^{m} 1\{z^{(i)}=j\}( x^{(i)}-\mu_{j}) ( x^{(i)}-\mu_{j})^{T}}{\sum_{i=1}^{m} 1\{z^{(i)}=j\}} \end{split} \end{equation*}$
从上面的表达式可以看出，如果

z(i) $z^{(i)}$ 的值已知，那么参数

ϕ,μ,Σ $\phi, \mu,\Sigma$ 的估计与之前介绍的Gaussian discriminant analysis 模型对参数的估计是一样的，这里的

z(i) $z^{(i)}$ 就像Gaussian discriminant analysis 模型中的输出y一样。

但是遗憾的是，我们不知道 $z^{(i)}$ 的值，所以这里我们要介绍另外一种unsupervised的学习方法，称为EM算法，EM算法主要分为两步，在E-step，我们主要对 $z^{(i)}$ 的值做猜测，在M-step，我们在E-step假设的基础上，利用最大似然估计求参数 $\phi, \mu,\Sigma$ ，算法主要流程如下：

Repeat until convergence {

E-step：对于每一个i,j,设置：

w (i) j : = p (z (i) = j | x (i); ϕ, μ, Σ)

$w_{j}^{(i)}:=p(z^{(i)}=j| x^{(i)}; \phi, \mu, \Sigma)$

M-step：跟新如下参数：

ϕ j : = 1 m \sum i = 1 m w (i) j

$\phi_{j} : =\frac{1}{m} \sum_{i=1}^{m} w_{j}^{(i)}$

μ j : = \sum m i = 1 w ( i ) j x ( i ) \sum m i = 1 w ( i ) j

$\mu_{j} : = \frac{\sum_{i=1}^{m} w_{j}^{(i)}x^{(i)}}{ \sum_{i=1}^{m} w_{j}^{(i)} }$

Σ j : = \sum m i = 1 w ( i ) j ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 w ( i ) j

$\Sigma_{j} : = \frac{ \sum_{i=1}^{m} w_{j}^{(i)} ( x^{(i)}-\mu_{j}) ( x^{(i)}-\mu_{j})^{T} }{ \sum_{i=1}^{m} w_{j}^{(i)} }$

}

在E-step，我们可以通过给定的 $x^{(i)}$ 和当前估计的参数计算 $z^{(i)}$ 的后验概率，利用贝叶斯估计，我们可以得到：

p (z (i) = j | x (i); ϕ, μ, Σ) = p ( x ( i ) | z ( i ) = j ; μ , Σ ) p ( z ( i ) = j , ϕ ) \sum k l = 1 p ( x ( i ) | z ( i ) = l ; μ , Σ ) p ( z ( i ) = l , ϕ )

$p(z^{(i)}=j| x^{(i)}; \phi, \mu, \Sigma)=\frac{ p(x^{(i)}|z^{(i)}=j ;\mu, \Sigma) p(z^{(i)}=j, \phi) }{ \sum_{l=1}^{k} p(x^{(i)}|z^{(i)}=l ;\mu, \Sigma) p(z^{(i)}=l, \phi) }$

这里， $p(x^{(i)}|z^{(i)}=j ;\mu, \Sigma)$ 通过计算一个均值为 $\mu_{j}$ ，协方差为 $\Sigma_{j}$ 的高斯分布在 $x^{(i)}$ 处的概率密度得到， $p(z^{(i)}=j, \phi)$
是由 $\phi_{j}$ 给出，在E-step计算的 $w_{j}^{(i)}$ 的值，表示我们对 $z^{(i)}$ 的一种弱估计。