机器学习笔记之高斯混合模型(三)EM算法求解高斯混合模型(E步操作)

静静的喝酒

已于 2022-09-10 16:57:46 修改

阅读量1k

点赞数 5

分类专栏：机器学习

于 2022-09-09 22:16:03 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126787601

版权

机器学习算法高斯混合模型求解 EM算法

机器学习专栏收录该内容

195 篇文章 233 订阅

订阅专栏

机器学习笔记之高斯混合模型——EM算法求解高斯混合模型【E步操作】

引言

引言

上一节介绍了尝试使用极大似然估计求解高斯混合模型的模型参数，但无法求出解析解。本节将介绍使用EM算法求解高斯混合模型的模型参数。

回顾：高斯混合模型及模型参数

令 $\mathcal X$ 表示观测数据(Observed Data)，共包含 $N$ 个样本点，并假设 任意样本之间独立同分布：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots, x^{(N)}\} \\ x^{(i)} \overset{\text{i.i.d.}}{\sim}x^{(j)} \quad (x^{(i)},x^{(j)} \in \mathcal X;i\neq j)$
任意一个样本点 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。从样本数量角度观察，隐变量集合 $\mathcal Z$ 表示如下：
$\mathcal Z = \{z^{(1)},z^{(2)},\cdots,z^{(N)}\}$
称 $(\mathcal X,\mathcal Z)$ 为完整数据(Complete Data)，样本数量角度表示如下：
$(\mathcal X,\mathcal Z) = \{(x^{(1)},z^{(1)}),\cdots,(x^{(N)},z^{(N)})\}$
从变量分布的角度观察，隐变量 $\mathcal Z$ 是基于 $\mathcal K$ 个参数的离散分布，各参数及对应概率分布表示如下：

$\mathcal Z$	$z_1$	$z_2$	$\cdots$	$z_{\mathcal K}$
$P(\mathcal Z)$	$p_1$	$p_2$	$\cdots$	$p_{\mathcal K}$

并满足：
$\sum_{k=1}^{\mathcal K} p_k = 1$
任意 $z_j \in \mathcal Z$ 均唯一对应一个高斯分布。换句话说，给定隐变量标签 $z_j \in \mathcal Z$ 的条件下， $z_j$ 标签下的样本数据 $x$ 服从高斯分布。因而共包含 $\mathcal K$ 个高斯分布：

$\mathcal Z$	$z_1$	$z_2$	$\cdots$	$z_{\mathcal K}$
$P(\mathcal X \mid \mathcal Z)$	$\mathcal N(\mu_1,\Sigma_1)$	$\mathcal N(\mu_2,\Sigma_2)$	$\cdots$	$\mathcal N(\mu_{\mathcal K},\Sigma_{\mathcal K})$

数学符号表达即：
$P(\mathcal X\mid \mathcal Z = z_k) \sim \mathcal N(\mathcal X \mid \mu_{k},\Sigma_k) \quad (k=1,2,\cdots,\mathcal K)$
因此，高斯混合模型的概率模型 $P(\mathcal X)$ 表达如下：
$\begin{aligned}P(\mathcal X) & = \sum_{\mathcal Z} P(\mathcal X \mid \mathcal Z = z_k)P(\mathcal Z = z_k) \\ & = \sum_{k=1}^{\mathcal K}\mathcal N(\mathcal X \mid \mu_k,\Sigma_k)\cdot p_k \end{aligned}$
概率模型的模型参数 $\theta$ 表示如下：
$\theta = \{p_1,\cdots,p_{\mathcal K},\mu_1,\cdots,\mu_{\mathcal K},\Sigma_1,\cdots,\Sigma_{\mathcal K}\}$

回顾：狭义EM算法

EM算法是求解概率模型 $P(\mathcal X \mid \theta)$ 模型参数的一种方法，它的底层是极大似然估计，它的迭代求解公式具体表示如下：
$\begin{aligned} \theta^{(t+1)} & = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta) \cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z \\ & = \mathop{\arg\max}\limits_{\theta} \mathbb E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right] \end{aligned}$
基于上述公式，可以将EM算法分成两个步骤：

E步(Expection-Step)：令 $E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$ 表示为 关于 $\theta,\theta^{(t)}$ 的函数。则有：
$\mathcal L(\theta,\theta^{(t)}) = \int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta) \cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
M步(Maximization-Step)：基于E步操作，选择合适的 $\theta$ ，使得 $\mathcal L(\theta,\theta^{(t)})$ 最大。
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta,\theta^{(t)})$

E步、M步交替进行，最终迭代收敛至最优解(至少局部最优)。

使用EM算法求解高斯混合模型参数

场景整理

EM算法中符号表示与高斯混合模型中的符号表示 对比如下：
等号左端是‘EM算法’的符号表示；等号右端是‘高斯混合模型’的符号表示。
$\begin{aligned}P(\mathcal X,\mathcal Z \mid \theta) & = P(\mathcal Z = z_j)\cdot P(\mathcal X \mid \mathcal Z = z_j) \\ & = p_{\mathcal Z} \cdot \mathcal N(\mathcal X \mid \mu_{\mathcal Z},\Sigma_{\mathcal Z}) \\ & = \prod_{i=1}^N p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})\\ P(\mathcal Z \mid \mathcal X,\theta) & = \frac{P(\mathcal X,\mathcal Z)}{P(\mathcal X)} \\ & = \frac{\prod_{i=1}^N p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k\cdot \mathcal N(\mathcal X \mid \mu_k,\Sigma_k)} \end{aligned}$

求解过程(E步过程)

已知 $\mathcal L(\theta,\theta^{(t)})$ 函数表示如下：
$\mathcal L(\theta,\theta^{(t)}) = \int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta) \cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
将 $P(\mathcal X,\mathcal Z \mid \theta),P(\mathcal Z \mid \mathcal X,\theta)$ 代入上式：
由于‘高斯混合模型’隐变量 $\mathcal Z$ 是离散型参数，因而将 $\int$ 符号改为 $\sum$ 符号，并且各样本之间服从’独立同分布‘。
$\sum_{\mathcal Z} \log \prod_{i=1}^N P(x^{(i)},z^{(i)} \mid \theta) \cdot \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$

将 $\log \prod_{i=1}^N P(x^{(i)},z^{(i)} \mid \theta)$ 进行变换，并将 $\sum_{\mathcal Z}$ 展开：
$\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \sum_{i=1}^N \log P(x^{(i)},z^{(i)} \mid \theta) \cdot \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$
关于 $\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}}$ 这个形式 需要解释一下，我们之前并没有讨论过 $z^{(i)}(i=1,2,\cdots,N)$ 到底是什么，只是知道每个样本下 $x^{(i)}$ 均对应一个隐变量 $z^{(i)}$ 。

$z^{(i)}$ 不是一个具体数值，而是一个向量。它表示样本 $x^{(i)}$ “可能属于的高斯分布”所组成的向量。示例：
依然假设样本空间内一共包含 $\mathcal K$ 个高斯分布，样本 $x^{(1)}$ 对应的隐变量 $z^{(1)}$ 表示如下：
$z^{(1)} = (z_1^{(1)},z_2^{(1)},\cdots,z_{\mathcal K}^{(1)})^{T}$
其中， $z_{k}^{(1)}(k=1,2,\cdots,\mathcal K)$ 表示 样本 $x^{(1)}$ 可能属于编号为 $k$ 的高斯分布。注意， $z_k^{(1)}$ 只表示高斯分布的编号(或者称为离散参数)，它不表示概率。 它是如何表示概率的？结果如下表：

$z^{(1)}$	$z_1^{(1)}$	$z_2^{(1)}$	$\cdots$	$z_{\mathcal K}^{(1)}$
$P(z^{(1)})$	$p_1^{(1)}$	$p_2^{(1)}$	$\cdots$	$p_{\mathcal K}^{(1)}$

$p_j^{(i)}$ 是样本点 $x^{(i)}$ 指向编号为 $z_j$ 的隐变量对应的高斯分布 $\mathcal N(\mu_j,\Sigma_j)$ 的概率，而 $P(z^{(i)})$ 表示 $\mathcal K$ 个概率结果组成的向量。用数学语言表达即：
$p_j^{(i)} = P(x^{(i)} \to z_j) = P(x^{(i)} \in \mathcal N(\mu_j,\Sigma_j)) \\ P(z^{(i)}) = (p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)}) ^{T}$
同样存在这种现象的不仅仅是概率，还有均值、协方差：

$\mu_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $\mathcal K$ 个高斯分布上的期望结果组成的向量：
$\mu_{z^{(i)}} = (\mu_{1}^{(i)}，\mu_2^{(i)}, \cdots, \mu_{\mathcal K}^{(i)})^{T}$
$\Sigma_{z^{(i)}}$ 表示样本点 $x^{(i)}$ 对应在 $\mathcal K$ 个高斯分布上的协方差结果组成的向量：
$\Sigma_{z^{(i)}} = (\Sigma_{1}^{(i)}，\Sigma_2^{(i)}, \cdots, \Sigma_{\mathcal K}^{(i)})^{T}$

由于 $\sum_{i=1}^N \log P(x^{(i)},z^{(i)}\mid \theta)$ 中隐变量的形式是 $z^{(i)}(i=1,2,\cdots,N)$ 而不是 $z_j(j=1,2,\cdots,\mathcal K)$ 因此对 $\sum_{\mathcal Z}$ 的展开不是 $\sum_{z_1,z_2,\cdots,z_{\mathcal K}}$ 而是 $\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}}$ 。

继续将 $\sum_{i=1}^N \log P(x^{(i)},z^{(i)}\mid \theta)$ 展开，展开结果如下：
$\begin{aligned} \mathcal L(\theta,\theta^{(t)}) & = \sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \left[\log P(x^{(1)},z^{(1)} \mid \theta) + P(x^{(2)},z^{(2)} \mid \theta) + \cdots + P(x^{(N)},z^{(N)} \mid \theta)\right] \cdot \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)}) \\ & = \left[\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(1)},z^{(1)} \mid \theta) \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] + \cdots + \left[\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(N)},z^{(N)} \mid \theta) \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] \end{aligned}$
基于上述结果，仅观察第一项：
$\sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(1)},z^{(1)} \mid \theta) \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$
观察 $\prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})$ ，发现只有第一项 $P(z^{(1)} \mid x^{(1)},\theta^{(t)})$ 和 $z^{(1)}$ 相关；因此，将上式表示为如下形式：
$\begin{aligned} & \sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(1)},z^{(1)} \mid \theta) \cdot P(z^{(1)} \mid x^{(1)},\theta^{(t)}) \prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)}) \\ & = \sum_{z^{(1)}} \left[ \log P(x^{(1)},z^{(1)} \mid \theta) \cdot P(z^{(1)} \mid x^{(1)},\theta^{(t)})\right] \cdot \sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] \end{aligned}$
观察 $\sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right]$ ，它可以展开成如下形式：
$\begin{aligned} \sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] & = \sum_{z^{(2),\cdots,z^{(N)}}} \left[P(z^{(2)} \mid x^{(2)},\theta^{(t)}) \times \cdots \times P(z^{(N)} \mid x^{(N)},\theta^{(t)})\right] \\ & = \sum_{z^{(2)}} P(z^{(2)} \mid x^{(2)},\theta^{(t)}) \times \cdots \times \sum_{z^{(N)}}P(z^{(N)} \mid x^{(N)},\theta^{(t)}) \end{aligned}$
上述结果的任意一项 $\sum_{z^{(j)}} P(z^{(j)} \mid x^{(j)},\theta^{(t)}) (j=2,\cdots,N)$ 都是 基于离散型变量的概率密度积分，因此则有：
$\sum_{z^{(2)}} P(z^{(2)} \mid x^{(2)},\theta^{(t)}) = \cdots =\sum_{z^{(N)}} P(z^{(N)} \mid x^{(N)},\theta^{(t)}) = 1 \\ \sum_{z^{(2)},\cdots,z^{(N)}} \left[\prod_{i=2}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] = 1 \times \cdots \times 1 = 1$
因此，被观察的第一项 结果如下：
$\begin{aligned} & \sum_{z^{(1)},z^{(2)},\cdots,z^{(N)}} \log P(x^{(1)},z^{(1)} \mid \theta) \prod_{i=1}^N P(z^{(i)} \mid x^{(i)},\theta^{(t)}) \\ & = \sum_{z^{(1)}} \left[ \log P(x^{(1)},z^{(1)} \mid \theta) \cdot P(z^{(1)} \mid x^{(1)},\theta^{(t)})\right] \cdot 1 \\ & = \sum_{z^{(1)}} \left[ \log P(x^{(1)},z^{(1)} \mid \theta) \cdot P(z^{(1)} \mid x^{(1)},\theta^{(t)})\right] \end{aligned}$
基于上一步骤， $\mathcal L(\theta,\theta^{(t)})$ 可表示为如下形式：
$\begin{aligned} \mathcal L(\theta,\theta^{(t)}) & = \sum_{z^{(1)}} \left[\log P(x^{(1)},z^{(1)} \mid \theta) \cdot P(z^{(1)} \mid x^{(1)},\theta^{(t)})\right] + \cdots + \sum_{z^{(N)}} \left[\log P(x^{(N)},z^{(N)} \mid \theta) \cdot P(z^{(N)} \mid x^{(N)},\theta^{(t)})\right] \\ & = \sum_{i=1}^N \sum_{z^{(i)}}\left[\log P(x^{(i)},z^{(i)} \mid \theta) \cdot P(z^{(i)} \mid x^{(i)},\theta^{(t)})\right] \end{aligned}$
将场景整理中的对应结果代入，有：
关于 $P(z^{(i)}),\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ 详见上面黄色字解释。
$\mathcal L(\theta,\theta^{(t)}) = \sum_{i=1}^N \sum_{z^{(i)}} \log P(z^{(i)}) \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}}) \cdot \frac{P(z^{(i)}) \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k \cdot \mathcal N(x^{(i)} \mid \mu_k,\Sigma_k)}$