EM算法及高斯混合模型（含Mathematica实现代码）

最新推荐文章于 2023-12-05 20:38:02 发布

pdcxs007

最新推荐文章于 2023-12-05 20:38:02 发布

阅读量1.8k

点赞数 2

分类专栏：算法数学随笔文章标签： EM算法混合高斯模型

本文链接：https://blog.csdn.net/pdcxs007/article/details/69526102

版权

这篇博客介绍了EM算法和高斯混合模型，通过一个树林中树叶分类的例子阐述了模型的应用。文章指出了官方文档中的一些模糊和错误之处，并提供了Mathematica实现代码。通过EM算法，即使在未知类别归属和分布参数的情况下，也能逐步估计出数据的分类和分布参数。

摘要由CSDN通过智能技术生成

模式识别课程中已经学习了EM算法和高斯混合模型，但是听课的时候感觉十分茫然，课程中乃至的概率论等内容和数学中的内容有些脱节，直接套用数学中的内容甚至会导致前后矛盾。课后反复研究之后，发现是不正规的甚至是错误的数学语言的使用导致的公式晦涩难懂。因此在此做一些笔记，努力让公式简单一些。

高斯混合模型

从一个例子说起。

一片树林中有A、B、C三种树木，每种树木的叶子的面积与最大宽度分别服从联合高斯分布（具体参数未知）。如何通过收集一定量的树叶（不知道这些树叶属于哪种树木），试对这些树叶进行分类，并估算出三种树木的联合高斯分布的参数。

首先要对这个例子进行数学描述。每个叶子可以用一个二维向量表示： $\mathbf{x}=(x_1,x_2)$ ，其中的 $x_1,x_2$ 分别为树叶的面积和最大宽度。叶子属于哪种树用三维向量表示： $\mathbf{z}=(z_1,z_2,z_3)$ ，其中， $z_1,z_2,z_3$ 中有且仅有一个为1，其余两个为0. $z_1$ 为1表示该树叶属于树木A， $z_2,z_3$ 与此含义相同。总共采集了 $m=100$ 片叶子，则第 $i$ 片叶子记为 $\mathbf{x}_i$ ，类别为 $\mathbf{z}_i$ ，对于 $\mathbf{z}_i$ ， $z^{(i)}$ 表示 $\mathbf{z}_i$ 中第几个分量为1，比如，若 $\mathbf{z}_5=(0,1,0)$ ，则 $z^{(5)}=2$ 。树A、B、C的树叶的分布分别为 $\mathcal{N}(\mu_i,\Sigma_i),i=1,2,3$ ，注意，其中的 $\mu_i$ 是一个二维向量， $\Sigma_i$ 是一 $2\times2$ 的矩阵。

例如，以下Mathematica代码实现了500个示例数据的生成（三种树木的概率分别为0.2，0.3，0.5）：

generateDataCode

图1 Mathematica代码，用于生成高斯混合模型的示例数据。

效果如图2所示：

generateData

图2 高斯混合模型示例数据

在了解了实际例子后，展示一下“官方”的高斯混合模型的定义，并指明其含混和错误的地方。

Suppose that we are given a training set $\{x^{(1)},\dots,x^{(m)}\}$ as usual. Since we are in the unsupervised learning setting, these points do net come with any labels.

We wish to model the data by specifying a joint distribution $p(x^{(i)},z^{(i)})=p(x^{(i)}|z^{(i)})p(z^{(i)})$ . Here, $z^{(i)}\thicksim \text{Multinomial}(\phi)$ , (where $\phi_j\geq 0, \sum_{j=1}^k\phi_j=1$ , and parameter $\phi_j$ gives $p(z^{(i)}=j)$ ,) and $x^{(i)}|z^{(i)}\thicksim \mathcal{N}(\mu_j,\Sigma_j)$ . We let $k$ denote the number of values that the $z^{(i)}$ ’s can take on. Thus our model posits that each $x^{(i)}$ was generated by randomly choosing $z^{(i)}$ from $\{1,\dots,k\}$ , and then $x^{(i)}$ was drawn from one of $k$ Gaussians depending on $z^{(i)}$ . This is called the mixture of Gaussians model.

大体一看会有很多难以理解的地方，这里做一下说明。首先，训练集用的是小写字体加目标的形式，不符合常理。且不加粗会误认为是标题，因此改用上文的方式，训练集记为： $\{\mathbf{x_1},\dots,\mathbf{x_m}\}$ ，第 $k$ 个训练数据的各个分量记为 $(x_1^k, x_2^k,\dots,x_c^k)$ （这里的 $c$ 表示训练数据的维数，后面并没有用到）。

“官方文档”中的 $z^{(i)}$ 和 $\mathbf{z}_i$ 是混用的。本身这两个变量是可以一一对应的，但是一个是标量一个是向量，太容易让人迷惑了，而且很多地方严格的来说是错误的。文中提到了一个多项式分布（Multinomial Distribution），这是一个怎样的分布呢？这是一个二项式分布的推广分布，对于一个实验，有 $k$ 各可能的结果，各个结果发生的可能分别为 $p_1,\dots,p_k$ ，进行了 $n$ 次独立实验之后，这 $k$ 个结果分别发生了 $a_1,\dots,a_k$ 次的概率为：

p (a 1, \dots, a k; n, p 1, \dots, p k) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ (n a 1 , \dots , a k) p a 1 1 \dots p a k k, 0, \sum i = 1 k a i = n otherwise

$p(a_1,\dots,a_k;n,p_1,\dots,p_k)=\left\{ \begin{array}{ll} \binom{n}{a_1,\dots,a_k}p_1^{a_1}\dots p_k^{a_k}, & \sum_{i=1}^k a_i=n\\ 0, &\text{otherwise} \end{array} \right.$
式中，