PRML第九章读书笔记——Mixture Models and EM K均值/K中心点、高斯混合奇异性、EM观点下的高斯混合/K-means/混合伯努利分布/贝叶斯线性回归、推广EM算法

最新推荐文章于 2020-12-31 08:17:31 发布

Trade Off

最新推荐文章于 2020-12-31 08:17:31 发布

阅读量795

点赞数 2

分类专栏：机器学习 # 读书笔记 PRML 文章标签：机器学习 EM算法混合模型

本文链接：https://blog.csdn.net/qq_32071849/article/details/108960612

版权

机器学习同时被 2 个专栏收录

45 篇文章 5 订阅

订阅专栏

读书笔记 PRML

14 篇文章 2 订阅

订阅专栏

9.1 K-means Clustering

经典聚类算法了，目标函数为失真度量distortion measure
在这里插入图片描述
其中 $r_{nk} \in \{0, 1\}$ ，表示是否 $n$ 属于类 $k$
最小化这个东西，导致K-means一定收敛

K-means的初始化很重要。实践中一种好的初始化方法为随机选K个点的集合。
K-means算法也用于初始化高斯混合模型的参数
直接算K-means很慢，有一些加速方法
K-means有一个在线学习算法，将Robbins-Monro算法用于均值估计

P429 K中心点算法K-medoids

K-means对离群点不鲁棒，K-medoids是一种更广泛的方法，其中 $\mathcal V(\cdot, \cdot)$ 是一个距离度量
在这里插入图片描述
E步好说，M步不好求，所以经常会把限制类中心在类里的某个数据点上。这样对于第 $k$ 类有 $N_k$ 个数据点，计算复杂度为 $O(N_k^2)$
下图为用K-means做分割（直接在RGB空间度量，这也可以用来做压缩）

9.2 Mixtures of Gaussians

经典算法了
在这里插入图片描述

$\gamma(z_k)$ 叫做第 $k$ 类的responsibility责任

该问题没有解析解。EM算法的更新公式为
在这里插入图片描述
其中

在梯度优化中，
对于任意给定的最大似然解， $K$ 个分量混合而成的概率共有 $K!$ 个等价的解
在EM算法中，优化的E步算每个点的后验概率，M步算新的 $\pi, \bm \mu, \bm \Sigma$

高斯混合模型的条件分布仍然是高斯混合模型
$p(\bm x_b| \bm x_a)=\sum_{k=1}^K p(k|\bm x_a)p(\bm x_b |\bm x_a, k)=\sum_{k=1}^K \frac{\pi_k p(\bm x_a|k)}{\sum_j \pi_j p(\bm x_a|j)}p(\bm x_b |\bm x_a, k)$
见习题9.10

P433 高斯混合的奇异性

如果某一类的均值位于某个数据点上，方差可以无穷小，使对数似然概率达到正无穷，这导致了高斯混合的病态解。
注意，如果只有一类高斯，那么这种病态解是不会存在的，但是如果有多类，那么这种解就会存在，因为可以让另一个类有有限的正常的方差。
在这里插入图片描述
如果检测到高斯分量收缩到一个点，那么将它的均值重新设定为一个随机选择的值，并将方差设置为某个较大的值，然后继续优化。

9.3 An Alternative View of EM

PRML的EM算法引入太突兀。看李航《统计学习方法》会好不少。
即利用Jenson不等式构造
$B(\theta, \theta(i))=\sum_Z p(Z|X,\theta^{(i)})\ln \frac{p(X,Z|\theta)}{p(Z|X,\theta^{(i)})}$
抄一张CVMLI的图
在这里插入图片描述

E步，把 $B(\theta, \theta^{(i-1)})$ 换成 $B(\theta, \theta^{(i)})$ 。注意，一定有 $B(\theta^{(i)}, \theta^{(i)})\geqslant B(\theta^{(i)}, \theta^{(i-1)})$ ，
M步，优化 $B(\theta, \theta^{(i)})$ 中的 $\theta$ ，得到 $\theta^{(i+1)}$
CVMLI一书关于EM的描述见EM算法极简总结——CVMLI Prince读书随笔第7章，其中也定义了B函数，只不过参数顺序改了，这两个其实是一回事

PRML书里是这么写的
在这里插入图片描述

EM也可以用来找MAP，E步不变（想一下，E步是找关于 $z$ 的函数，和 $\theta$ 无关）M步改成最大化
$Q(\bm \theta, \bm \theta^{old})+\ln p(\bm \theta)$
好的先验 $p(\bm\theta)$ 会消除高斯混合中的奇异性

P442 EM观点下的高斯混合

在这里插入图片描述

全数据对数似然概率公式（全数据这样避免了对数里面的sum）

P443 EM观点下的K-means

考虑高斯混合模型，其中协方差为 $\epsilon \bm I$ ，并把它视作一个定值，而不是参数
在这里插入图片描述

如果 $\epsilon \to 0$ ，上下同乘 $\exp \{\|\bm x_n-\bm \mu_k\|^2/2\epsilon\}$ ，分子为 $\pi_k$ ，对于分母，如果 $\|\bm x_n - \bm \mu_k\|$ 如果不是最小的，则分母会到正无穷，也即 $\gamma(z_{nk})=0$ ，只有最小的距离对应的 $\gamma(z_{nk})=1$
$\bm \mu$ 的更新公式不变，而 $\bm \pi$ 也能优化，但失去意义（先验在EM里对推算后验没啥用了，高斯分布太极端了）

此时，全数据对数似然变为（这好像没写 $\bm \pi$ 啊）在这里插入图片描述

P444 伯努利分布混合模型

真的是一堆高维伯努利分布（注意高维伯努利分布和多类分布是不一样的）
在这里插入图片描述
其中 $\bm \mu = \{\bm \mu_1,\cdots, \bm \mu_K\}$ ， $\bm \pi = \{\pi_1, \cdots, \pi_K\}$

可以得到均值和方差分别为（实际上混合分布的均值和方差都可以这么写，见习题9.12）

开始EM，先写出

联合数据的对数最大似然
在这里插入图片描述

其中E步后验为

在M步，可以求出每类系数
在这里插入图片描述
其中

类的先验概率为

混合伯努利分布中，不同于高斯混合，没有奇异性。对数似然概率不会到正无穷，存在对数似然概率极低的病态情况，但是只要初始化的合理，就没问题，毕竟EM只会把对数最大似然往上提
示例， ${2,3,4\}$ 三类二值图像：
伯努利分布的先验是Beta分布，可以引入，当作对 $x$ 的额外观测（想象一下Beta分布的含义）
如果即对 $\bm \mu$ 加上伯努利分布先验，又对 $\bm \pi$ 加上迪利克雷分布先验，则更新公式为（习题9.18）
类内的伯努利分布也可以推广到多类分布，对应共轭分布先验是迪利克雷分布

P228 EM观点下的贝叶斯线性回归

在第三章中，计算模型证据，用MLE找超参数 $\alpha,\beta$
可以把 $\bm w$ 视作隐变量，这样就可以用EM了！
在这里插入图片描述
对 $\bm w$ 的后验求期望，得到E步

M步，求导后得到

这和第三章的形式稍有区别，但会收敛到同样的结果，（如果能收敛到同一个局部极小值的话）。注意第三章中极小值导数为0的等式（注意逆矩阵特征值为原矩阵的倒数）
在这里插入图片描述

EM也可以用于求RVM中的 $\alpha, \beta$ ， $\bm w$ 的先验为。RVM和贝叶斯线性回归的证据函数很像，只不过就是 $\alpha$ 打散了

E步有 $\bm w$ 后验

其中 $\bm \Phi \in \mathbb R^{N\times M}, \bm A=\text{diag}(\alpha_i)$
M步优化参数

可以看出，这和第七章的极值点情况一样

9.4 The EM Algorithm in General

（这一块内容感觉博客没组织好），其实还是在说 $\ln p(\bm X|\bm \theta)$ 这个事情
我们假定直接优化 $p(\bm X|\bm \theta)$ 很难，但优化 $p(\bm X, \bm Z|\bm \theta)$ 很容易。从而
在这里插入图片描述
其中定义了

注意 $\mathcal L(q,\bm \theta)$ 是一个泛函

E步：当 $q(\bm Z)=p(\bm Z|\bm X, \bm \theta^{old})$ ， $\mathcal L(q,\bm \theta)$ 达到最大
M步：

其实就是在优化如下的 $\mathcal Q$ ，这样能优化 $\mathcal L$ ， $\mathcal L$ 是 $\ln p(\bm X|\bm \theta)$ 的下界。注意 $\mathcal L$ 抬升，必然导致对数似然的抬升，因为KL那一项更高了。。。

EM的总体优化感受如图（跟上面CVMLI那图差不多）
在这里插入图片描述

注意蓝线和红线相切那一点，也就是E步之后那一点，可以证明两线是相切的。（习题9.25）
如果 $p(\bm Z,\bm X|\bm \theta)$ 是指数族函数的话， $\ln$ 会使得指数消失，非常方便。EM方便的地方还是在于把 $\ln$ 里面对于隐变量积分的操作去掉了，算起来容易！
对于指数族分布混合来说，上图蓝线是上凸函数（我也不知道为啥）
对于带先验 $p(\bm \theta)$ 的情况，EM的原理分析类似
对于iid的数据集

也即 $\bm z_n$ 只和 $\bm x_n$ 有关，和其他 $\bm x$ 无关。这使得EM也可以在每轮迭代中只采用一个数据点。。如果混合分量是指数族，则新数据点的后验（responsibility）是充分统计量，只更新一个数据点的后验即可。例如高斯混合模型中，对于数据点 $m$ 的迭代（习题9.26）

其中

方差和混合系数也能写出来（习题9.27）
这样EM的计算速度就和数据量无关了。这种EM收敛更快。注意和梯度下降不同的是，这种EM仍然保证 $\mathcal L$ 单调递增！

P454 推广EM算法 generalized EM（GEM）

EM让E步和M步都变得可解，如果E步和M步仍然不可解，那么就需要generalized EM（GEM）。

对于优化M步，方法可以是
- 在M步用共轭梯度法之类的非线性优化方法
- 期望条件最大化expectation conditional maximization（ECM），在M步中进行了若干具有限制条件的优化，例如把参数划分为若干组，M步被分为很多步，每一步只优化一个子集参数
对于优化E步，方法可以是
- 对 $q(\bm Z)$ 也进行局部优化

参考文献：
[1] Christopher M. Bishop. Pattern Recognition and Machine Learning. 2006

Trade Off

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
PRML第九章读书笔记——Mixture Models and EM K均值/K中心点、高斯混合奇异性、EM观点下的高斯混合/K-means/混合伯努利分布/贝叶斯线性回归、推广EM算法

目录K-means ClusteringP429 K中心点算法K-medoids隐变量的引入使得复对于观测变量的复杂概率表示由简单分量组成K-means Clustering经典聚类算法了，目标函数为失真度量distortion measure其中rnk∈{0,1}r_{nk} \in \{0, 1\}rnk∈{0,1}，表示是否nnn属于类kkk最小化这个东西，导致K-means一定收敛K-means的初始化很重要。实践中一种好的初始化方法为随机选K个点的集合。K-means算法也用于
复制链接

扫一扫