【西瓜书笔记】10. 高斯混合模型

最新推荐文章于 2022-04-26 16:00:19 发布

西风瘦马1912

最新推荐文章于 2022-04-26 16:00:19 发布

阅读量375

点赞数

分类专栏：《机器学习》西瓜书第15期文章标签：聚类高斯混合模型机器学习 EM算法统计学习

本文链接：https://blog.csdn.net/weixin_39236489/article/details/123625996

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

定义

定义：
$P(\boldsymbol{x})=\sum_{i=1}^{k} \alpha_{i} \cdot \phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)$
该模型共由k个混合成分组成，每个混合成分对应一个高斯分布，其中， $\boldsymbol{x} \in \mathbb{R}^{n}$ ， $\alpha_i$ 为混合系数，且 $\alpha_{i} \geq 0, \sum_{i=1}^{k} \alpha_{i}=1$ , $\phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)$ 为多元高斯分布（当 $\boldsymbol{x}$ 为标量时，相应地替换为一元高斯分布）的概率密度函数：
$\phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)=\frac{1}{(2 \pi)^{\frac{n}{2}}\left|\boldsymbol{\Sigma}_{i}\right|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\right)$
其生成数据的方式为：首先，依概率 $\alpha_i$ 选择第i个高斯混合成分，接着依据该混合成分的概率分布 $\phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)$ 生成样本。

参数估计

EM算法

已知数据集 $D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{m}\right\}$ 中的样本均由某个高斯混合模型生成，而每个样本 $\boldsymbol{x}_{j}$ 是由哪个高斯混合成分生成是未知的，属于一个隐变量，我们令其为 $z_{j}, z_{j} \in\{1,2, \ldots, k\}$ 表示生成样本 $\boldsymbol{x}_{j}$ 的高斯混合成分，结合高斯混合模型生成数据的方式易知 $z_j$ 的分布律为 $P\left(z_{j}=i\right)=\alpha_{i}$ 。接下来应用EM算法。

E步：确定Q函数，并把样本序列和隐变量序列代入其中

$\begin{aligned} Q\left(\theta \mid \theta^{(i)}\right) &=\sum_{Z} P\left(Z \mid X, \theta^{(i)}\right) \ln P(X, Z \mid \theta) \\ &=\sum_{z_{1}, z_{2}, \ldots, z_{m}}\left\{\prod_{j=1}^{m} P\left(z_{j} \mid x_{j}, \theta^{(i)}\right) \ln \left[\prod_{j=1}^{m} P\left(x_{j}, z_{j} \mid \theta\right)\right]\right\} \\ &=\sum_{j=1}^{m}\left[\sum_{z_{j}} P\left(z_{j} \mid x_{j}, \theta^{(i)}\right) \ln P\left(x_{j}, z_{j} \mid \theta\right)\right] \\ &=\sum_{j=1}^{m}\left[\sum_{i=1}^{k} P\left(z_{j}=i \mid x_{j}, \theta^{(i)}\right) \ln P\left(x_{j}, z_{j}=i \mid \theta\right)\right] \end{aligned}$

其中，第2个等式到第3等式是根据EM算法笔记中的结果得到。

对于 $P\left(z_{j}=i \mid \boldsymbol{x}_{j}, \theta^{(i)}\right)$ ，如果我们先不考虑 $\theta^{(i)}$ ，有
$\begin{aligned} P\left(z_{j}=i \mid \boldsymbol{x}_{j}\right) &=\frac{P\left(z_{j}=i\right) \cdot P\left(\boldsymbol{x}_{j} \mid z_{j}=i\right)}{P\left(\boldsymbol{x}_{j}\right)} \\ &=\frac{\alpha_{i} \cdot \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i} , \boldsymbol{\Sigma}_{i}\right)}{\sum_{l=1}^{k} \alpha_{l} \cdot \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{l}, \boldsymbol{\Sigma}_{l}\right)} \end{aligned}$
这就是西瓜书中的式9.30。如果考虑 $\theta^{(i)}$ ，那么
$P\left(z_{j}=i \mid \boldsymbol{x}_{j}, \theta^{(i)}\right)=\frac{\alpha_{i}^{(i)} \cdot \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}^{(i)}, \boldsymbol{\Sigma}_{i}^{(i)}\right)}{\sum_{l=1}^{k} \alpha_{l}^{(i)} \cdot \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{l}^{(i)}, \boldsymbol{\Sigma}_{l}^{(i)}\right)}$
这里的i表示这是第i次迭代，同时也表示这个参数是已知的，也就是说式中都是已知量，那这个概率值也是已知量，所以我们可以将其简记为 $\gamma_{j i}$ 。

对于 $P\left(x_{j}, z_{j}=i \mid \theta\right)$ ,利用 $B)=P(A)\cdot P(A|B)$ ，可以有:
$\begin{aligned} P\left(\boldsymbol{x}_{j}, z_{j}=i \mid \theta\right) &=P\left(\boldsymbol{x}_{j} \mid z_{j}=i, \theta\right) \cdot P\left(z_{j}=i \mid \theta\right) \\ &=\phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right) \cdot \alpha_{i} \end{aligned}$

这时这个式子中的三个参数都是未知的。将上面两个式子代回到Q函数，可得
$\begin{aligned} Q\left(\theta \mid \theta^{(i)}\right) &=\sum_{j=1}^{m}\left[\sum_{i=1}^{k} P\left(z_{j}=i \mid \boldsymbol{x}_{j}, \theta^{(i)}\right) \ln P\left(\boldsymbol{x}_{j}, z_{j}=i \mid \theta\right)\right] \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k} \gamma_{j i} \ln \left[\alpha_{i} \cdot \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)\right]\\ &=\sum_{j=1}^{m} \sum_{i=1}^{k} \gamma_{j i}\left[\ln \alpha_{i}+\ln \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)\right] \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k}\left[\gamma_{j i} \ln \alpha_{i}+\gamma_{j i} \ln \phi\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)\right] \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k}\left\{\gamma_{j i} \ln \alpha_{i}+\gamma_{j i} \ln \left[\frac{1}{(2 \pi)^{\frac{n}{2}}\left|\boldsymbol{\Sigma}_{i}\right|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right)\right]\right\} \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k}\left\{\gamma_{j i} \ln \alpha_{i}+\gamma_{j i}\left[\ln \frac{1}{(2 \pi)^{\frac{n}{2}}}-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|-\frac{1}{2}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right]\right\} \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k}\left\{\gamma_{j i} \ln \alpha_{i}+\gamma_{j i} \ln \frac{1}{(2 \pi)^{\frac{n}{2}}}-\frac{1}{2} \gamma_{j i} \ln \left|\boldsymbol{\Sigma}_{i}\right|-\frac{1}{2} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right\} \end{aligned}$
接下来就对Q函数进行极大化操作。对于m个多元正态分布生成的样本的似然函数 $\sum^{m}_{i=1}\ln\phi(\boldsymbol{x}_{j}\mid \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_{j})$ ，对比上面第4个等式的式子，差别仅仅是多了 $\gamma,\alpha$ 这些常数项。而且注意，虽然有 $\sum_{i=1}^{k}$ 这个求和符号，但是我们想要极大化的是特定的 $(\mu_{i}, \Sigma_{i})$ ，对于下标不等于i的参数集合 $(\mu, \Sigma)$ ,我们都可以看成是常数，所以 $\sum_{i=1}^{k}$ 这个求和符号其实可以在极大化操作中忽略。而 $\ln \alpha_i$ 是个凹函数，且有线性等式约束 $\alpha_{i} \geq 0, \sum_{i=1}^{k} \alpha_{i}=1$ ,我们可以用拉格朗日乘子法求出来的点一定是目标函数的最大值点，所以我们用拉格朗日乘子法求 $\alpha_i$ 。

M步：求使得Q函数达到极大的 $\theta^{(i+1)}$ 。

求 $\boldsymbol{\mu}_{i}^{(i+1)}$ ,也就是对于Q函数关于 $\boldsymbol{\mu}_{i}$ 求偏导
$\begin{aligned} \frac{\partial Q\left(\theta, \theta^{(i)}\right)}{\partial \boldsymbol{\mu}_{i}} &=\sum_{j=1}^{m}\left\{0+0-0-\frac{1}{2} \gamma_{j i} \frac{\partial\left(\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right)}{\partial \boldsymbol{\mu}_{i}}\right\} \\ &=-\sum_{j=1}^{m} \frac{1}{2} \gamma_{j i} \frac{\partial\left(\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}-\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}+\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)}{\partial \boldsymbol{\mu}_{i}} \\ &=-\sum_{j=1}^{m} \frac{1}{2} \gamma_{j i} \frac{\partial\left(-\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}+\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)}{\partial \boldsymbol{\mu}_{i}} \end{aligned}$
由于 $\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}$ 和 $\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}$ 均为标量且 $\Sigma_{i}$ 为对称矩阵，标量转置还是它本身，所以
$\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}=\left(\boldsymbol{x}_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)^{T}=\boldsymbol{\mu}_{i}^{T}\left(\boldsymbol{\Sigma}_{i}^{-1}\right)^{T} \boldsymbol{x}_{j}=\boldsymbol{\mu}_{i}^{T}\left(\boldsymbol{\Sigma}_{i}^{T}\right)^{-1} \boldsymbol{x}_{j}=\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}$
代入上式可得
$\begin{aligned} \frac{\partial Q\left(\theta, \theta^{(i)}\right)}{\partial \boldsymbol{\mu_{i}}}&=-\sum_{j=1}^{m} \frac{1}{2} \gamma_{j i} \frac{\partial\left(-x_{j}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}+\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)} {\partial \boldsymbol{\mu}_{i}}\\ &=-\sum_{j=1}^{m} \frac{1}{2} \gamma_{j i} \frac{\partial\left(-2 \boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}+\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)}{\partial \boldsymbol{\mu}_{i}} \end{aligned}$
又由矩阵微分公式 $\dfrac{\partial \boldsymbol{x}^{T} \boldsymbol{a}}{\partial \boldsymbol{x}}=\boldsymbol{a}, \dfrac{\partial \boldsymbol{x}^{T} \mathbf{B} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left(\mathbf{B}+\mathbf{B}^{T}\right) \boldsymbol{x}$ 可得
$\frac{\partial Q\left(\theta, \theta^{(i)}\right)}{\partial \boldsymbol{\mu_{i}}}=\sum_{j=1}^{m} \frac{1}{2} \gamma_{j i}\left(2 \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x_{j}}-2 \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu_{i}}\right)=\sum_{j=1}^{m} \gamma_{j i}\left( \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x_{j}}- \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu_{i}}\right)$

令上式等于0可得
$\begin{gathered} \sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{x}_{j}-\boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}\right)=0 \\ \boldsymbol{\Sigma}_{i}^{-1} \cdot \sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)=0 \\ \sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)=0 \end{gathered}$

$\boldsymbol{\mu}_{i}=\frac{\sum_{j=1}^{m} \gamma_{j i} \boldsymbol{x}_{j}}{\sum_{j=1}^{m} \gamma_{j i}} \Rightarrow \boldsymbol{\mu}_{i}^{(i+1)}=\frac{\sum_{j=1}^{m} \gamma_{j i} \boldsymbol{x}_{j}}{\sum_{j=1}^{m} \gamma_{j i}}$

此即为西瓜书式9.34

求 $\Sigma_{i}^{(i+1)}$ ,对Q函数关于 $\Sigma_{i}$ 求偏导
$\begin{aligned} \frac{\partial Q\left(\theta, \theta^{(i)}\right)}{\partial \boldsymbol{\Sigma}_{i}} &=\sum_{j=1}^{m}\left\{0+0-\frac{\partial}{\partial \boldsymbol{\Sigma}_{i}}\left(\frac{1}{2} \gamma_{j i} \ln \left|\boldsymbol{\Sigma}_{i}\right|\right)-\frac{\partial}{\partial \boldsymbol{\Sigma}_{i}}\left[\frac{1}{2} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right]\right\} \\ &=\sum_{j=1}^{m}\left\{-\frac{1}{2} \gamma_{j i} \frac{\partial\left(\ln \left|\boldsymbol{\Sigma}_{i}\right|\right)}{\partial \boldsymbol{\Sigma}_{i}}-\frac{1}{2} \gamma_{j i} \frac{\partial\left[\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right]}{\partial \boldsymbol{\Sigma}_{i}}\right\} \end{aligned}$
由矩阵微分公式 $\dfrac{\partial|\mathbf{X}|}{\partial \mathbf{X}}=|\mathbf{X}| \cdot\left(\mathbf{X}^{-1}\right)^{T}, \dfrac{\partial \boldsymbol{a}^{T} \mathbf{X}^{-1} \boldsymbol{b}}{\partial \mathbf{X}}=-\mathbf{X}^{-T} \boldsymbol{a} \boldsymbol{b}^{T} \mathbf{X}^{-T}$ ,且 $\Sigma_{i}$ 是对称矩阵（先求逆再求转置相当于只求逆），可得
$\begin{aligned} \frac{\partial Q\left(\theta, \theta^{(i)}\right)}{\partial \boldsymbol{\Sigma}_{i}} & =\sum_{j=1}^{m}\left\{-\frac{1}{2} \gamma_{j i} \cdot \frac{1}{\left|\boldsymbol{\Sigma}_{i}\right|} \cdot\left|\boldsymbol{\Sigma}_{i}\right| \cdot\left(\boldsymbol{\Sigma}_{i}^{-1}\right)^{T}-\frac{1}{2} \gamma_{j i} \cdot\left(-\boldsymbol{\Sigma}_{i}\right)^{-T}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-T}\right\}\\ &=\sum_{j=1}^{m}\left\{-\frac{1}{2} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}+\frac{1}{2} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\right\} \end{aligned}$
令上式等于0可得
$\begin{aligned} &\sum_{j=1}^{m}\left\{-\frac{1}{2} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}+\frac{1}{2} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\right\}=0\\ &\sum_{j=1}^{m}\left\{-\frac{1}{2} \gamma_{j i}+\frac{1}{2} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}\right\}=0\\ &\frac{1}{2} \sum_{j=1}^{m} \gamma_{j i} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}=\frac{1}{2} \sum_{j=1}^{m} \gamma_{j i}\\ &\Sigma_{i}^{-1} \sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}=\sum_{j=1}^{m} \gamma_{j i} \end{aligned}$

$\begin{gathered} \boldsymbol{\Sigma}_{i}^{-1}=\frac{\sum_{j=1}^{m} \gamma_{j i}}{\sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}} \\ \boldsymbol{\Sigma}_{i}=\frac{\sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}}{\sum_{j=1}^{m} \gamma_{j i}} \Rightarrow \boldsymbol{\Sigma}_{i}^{(i+1)}=\frac{\sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T}}{\sum_{j=1}^{m} \gamma_{j i}} \end{gathered}$

此即为西瓜书式9.35

求 $\alpha_{i}^{(i+1)}$ ,由于 $\alpha_i$ 存在约束 $\sum_{i=1}^{k} \alpha_{i}=1$ ，所以考虑使用拉格朗日乘子法，其拉格朗日函数为
$\begin{aligned} L(\boldsymbol{\alpha}, \lambda) &=Q\left(\theta, \theta^{(i)}\right)+\lambda\left(\sum_{i=1}^{k} \alpha_{i}-1\right) \\ &=\sum_{j=1}^{m} \sum_{i=1}^{k}\left\{\gamma_{j i} \ln \alpha_{i}+\gamma_{j i} \ln \frac{1}{(2 \pi)^{\frac{n}{2}}}-\frac{1}{2} \gamma_{j i} \ln \left|\boldsymbol{\Sigma}_{i}\right|-\frac{1}{2} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\right\}+\lambda\left(\sum_{i=1}^{k} \alpha_{i}-1\right) \end{aligned}$

对拉格朗日函数关于 $\alpha_i$ 求偏导：
$\frac{\partial L(\boldsymbol{\alpha} , \lambda)}{\partial \alpha_{i}}=\sum_{j=1}^{m}\left\{\frac{\partial\left(\gamma_{j i} \ln \alpha_{i}\right)}{\partial \alpha_{i}}+0-0-0\right\}+\lambda \frac{\partial\left(\sum_{i=1}^{k} \alpha_{i}-1\right)}{\partial \alpha_{i}}=\sum_{j=1}^{m} \frac{\gamma_{j i}}{\alpha_{i}}+\lambda$

令上式等于0可得
$\begin{aligned} &\sum_{j=1}^{m} \frac{\gamma_{j i}}{\alpha_{i}}+\lambda=0 \\ &\frac{1}{\alpha_{i}} \sum_{j=1}^{m} \gamma_{j i}=-\lambda \\ &\alpha_{i}=-\frac{1}{\lambda} \sum_{j=1}^{m} \gamma_{j i} \end{aligned}$
由于 $\sum_{i=1}^{k} \alpha_{i}=1$ ,则上式两边关于i求和可得
$\begin{gathered} \sum_{i=1}^{k} \alpha_{i}=-\frac{1}{\lambda} \sum_{i=1}^{k} \sum_{j=1}^{m} \gamma_{j i} \\ 1=-\frac{1}{\lambda} \sum_{i=1}^{k} \sum_{j=1}^{m} \gamma_{j i} \\ \lambda=-\sum_{i=1}^{k} \sum_{j=1}^{m} \gamma_{j i} \end{gathered}$
这时我们要求出 $\lambda$ ，又因为
$\sum_{i=1}^{k} \sum_{j=1}^{m} \gamma_{j i}=\sum_{j=1}^{m} \sum_{i=1}^{k} \gamma_{j i}=\sum_{j=1}^{m} \sum_{i=1}^{k} P\left(z_{j}=i \mid \boldsymbol{x}_{j}, \theta^{(i)}\right)=\sum_{j=1}^{m} 1=m$
所以
$\begin{gathered} \lambda=-\sum_{i=1}^{k} \sum_{j=1}^{m} \gamma_{j i}=-m \\ \alpha_{i}=-\frac{1}{\lambda} \sum_{j=1}^{m} \gamma_{j i}=\frac{1}{m} \sum_{j=1}^{m} \gamma_{j i} \end{gathered}$
由于 $\leq \gamma_{j i}=P\left(z_{j}=i \mid \boldsymbol{x}_{j}, \theta^{(i)}\right) \leq 1$ ，所以
$\leq \sum_{j=1}^{m} \gamma_{j i} \leq m \Rightarrow 0 \leq \frac{1}{m} \sum_{j=1}^{m} \gamma_{j i} \leq 1$
那么此时解得的 $\alpha_{i}$ 是有效解，可以作为下一次迭代的初始参数，也即
$\alpha_{i}=\frac{1}{m} \sum_{j=1}^{m} \gamma_{j i} \Rightarrow \alpha_{i}^{(i+1)}=\frac{1}{m} \sum_{j=1}^{m} \gamma_{j i}$
此即为西瓜书式9.38

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】10. 高斯混合模型

定义定义：P(x)=∑i=1kαi⋅ϕ(x∣μi,Σi)P(\boldsymbol{x})=\sum_{i=1}^{k} \alpha_{i} \cdot \phi\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)P(x)=i=1∑kαi⋅ϕ(x∣μi,Σi)该模型共由k个混合成分组成，每个混合成分对应一个高斯分布，其中， x∈Rn\boldsymbol{x} \in \mathbb{
复制链接

扫一扫