PRML读书笔记——混合模型与EM

最新推荐文章于 2024-05-04 20:17:32 发布

GZGlenn

最新推荐文章于 2024-05-04 20:17:32 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签： EM 最大期望算法潜在变量

本文链接：https://blog.csdn.net/hubin232/article/details/70175624

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

如果观测变量上的边缘概率分布很复杂，可以引入潜在变量，得到观测变量和潜在变量的更加便于计算的联合概率分布。利用联合概率分布分析观测变量的概率。也就是说，潜在变量的引入是的复杂的概率分布可以由简单的分量组成。

EM算法是找到具有潜在变量的模型的最大似然解的方法，本章的主要目的是讲解EM算法。首先通过Kmeans聚类和混合高斯模型引出EM算法，最后给出EM算法的通用形式和理论说明。

K均值聚类

这里介绍K均值是因为它本质上是潜在变量的一个例子，本质也是在用EM算法求解。

所谓聚类，就是根据一定的准则将数据按照相似性归类到某个类别上。就K
均值而言，对于每个数据点 $x_{n}$ ，我们引⼊⼀组对应的⼆值指⽰变量 $r_{nk} \in \left \{0, 1\right \}$ ，其中 $k = 1,...,K$ 表⽰数据点 $x_{n}$ 属于K个聚类中的哪⼀个（注意，这个 $r_{nk}$ 其实就是潜在变量），从⽽如果数据点 $x_{n}$ 被分配到类别k，那么 $r_{nk} = 1$ ，且对于 $j \neq k$ ，有 $r_{nj} = 0$ 。这被称为“1-of-K”表⽰⽅式。之后我们可以定义⼀个⽬标函数，有时被称为失真度量:

J = \sum n = 1 N \sum k = 1 K r n k ∥ x n - u k ∥ 2

$J=\sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\left \| x_{n}-u_{k} \right \|^{2}$

它表⽰每个数据点与它被分配的向量 $μ_{k}$ 之间的距离的平⽅和。我们的⽬标是找到 $\left \{ r_{nk} \right \}$ 和 $\left \{ u_{k} \right \}$ 的值，使得 $J$ 达到最⼩值。

下面用迭代的方法分别对两个变量进行优化。

首先确定 $r_{nk}$ ，即对每个数据分别进行最优化，只要满足 $\left \| x_{n}-u_{k} \right \|^{2}$ 最小，则令 $r_{nk}=1$ 。这相当于E步

然后优化 $u_{k}$ ，固定 $r_{nk}$ ，则 $J$ 是它的二次函数，直接求导计算最大值，可得：

u k = \sum n r n k x n \sum n r n k

$u_{k}=\frac{\sum_{n}r_{nk}x_{n}}{\sum_{n}r_{nk}}$

所以对中心点的更新就是计算均值。

这里写图片描述

K均值算法经常被用于在EM算法之前初始化高斯混合模型的参数。它的基础是将平⽅欧⼏⾥得距离作为数据点与代表向量之间不相似程度的度量。这
不仅限制了能够处理的数据变量的类型（例如，它不能处理某些或全部变量表⽰类别标签的情形），⽽且使得聚类中⼼的确定对于异常点不具有鲁棒性。

推广的K均值算法：

（1）K中心点算法

（2）把硬分配转为软分配，如混合高斯、模糊聚类

混合高斯

考虑离散变量的混合高斯模型，对应的概率分布为：

p (x) = \sum k = 1 K π k N (x | u k, Σ k)

$p(x)=\sum_{k=1}^{K}\pi_{k}N(x|u_{k},\Sigma _{k})$

现在引入K维的二值随机变量z（潜在变量），其中一个特定的元素 $z_{k}$ 等于1，其余所有的元素等于0。于是 $z_{k}$ 的值满⾜ $z_{k} \in \left \{ 0,1 \right \}$ 且 $\sum_{k}z_{k} = 1$ ，并且我们看到根据哪个元素⾮零，向量 $z$ 有 $K$ 个可能的状态。我们根据边缘概率分布 $p(z)$ 和条件概率分布 $p(x|z)$ 定义联合概率分布 $p(x, z)$ ，有：

p (x, z) = p (z) p (x | z)

$p(x,z)=p(z)p(x|z)$

则， $z$ 的边缘概率分布根据混合系数 $\pi_{k}$ 进行赋值，即：

p (z k = 1) = π k

$p(z_{k}=1)=\pi_{k}$

因为z使用”1-of-K“的表示方法，因此有：

p (z) = \prod k = 1 K π z k k

$p(z)=\prod_{k=1}^{K}\pi_{k}^{z_{k}}$

类似地，有：

p (x | z) = p (x | z k = 1) = N (x | u k, Σ k) = \prod k = 1 K N (x | u k, Σ k) z k

$p(x|z)=p(x|z_{k}=1)=N(x|u_{k},\Sigma_{k})=\prod_{k=1}^{K}N(x|u_{k}, \Sigma_{k})^{z_{k}}$

因此，边缘概率分布：

p (x) = \sum z p (z) p (x | z) = \sum k = 1 K π k N (x | u k, Σ k)

$p(x)=\sum_{z}p(z)p(x|z)=\sum_{k=1}^{K}\pi_{k}N(x|u_{k},\Sigma _{k})$

这就验证了如此引入 $z$ 得到的模型是混合高斯模型， $z$ 对应的后验概率分布为：

r (z k) \equiv p (z k = 1 | x) = p ( z k = 1 ) p ( x | z k = 1 ) \sum K j = 1 p ( z j = 1 ) p ( x | z j = 1 ) = π k N ( x | u k , Σ k ) \sum K j = 1 π j N ( x | u j , Σ k )

$r(z_{k})\equiv p(z_{k}=1|x)\\=\frac{p(z_{k}=1)p(x|z_{k}=1)}{\sum_{j=1}^{K}p(z_{j}=1)p(x|z_{j}=1)}\\=\frac{\pi _{k}N(x|u_{k},\Sigma_{k})}{\sum_{j=1}^{K}\pi _{j}N(x|u_{j}, \Sigma_{k})}$

下面考虑求解对应的参数 $u_{k}$ ， $\Sigma_{k}$ 和 $\pi_{k}$

如果用最大似然求解，则：

l n p (X | π, u, Σ) = \sum n = 1 N l n {\sum k = 1 K π k N (x n | u k, Σ k)}

$lnp(X|\pi, u, \Sigma)=\sum_{n=1}^{N}ln\left \{ \sum _{k=1}^{K}\pi_{k}N(x_{n}|u_{k},\Sigma_{k}) \right \}$

这里ln里面有求和的形式，求解困难，所以需要采用EM算法

EM算法基本步骤：

（1）初始化各个参数 $u_{k}$ ， $\Sigma_{k}$ 和 $\pi_{k}$ 。计算对数似然函数的初始值

（2）E步骤：使用当前参数计算潜在变量的后验概率

r (z n k) = π k N ( x n | u k , Σ k ) \sum K j = 1 π j N ( x n | u j , Σ k )

$r(z_{nk})=\frac{\pi_{k}N(x_{n}|u_{k},\Sigma_{k})}{\sum_{j=1}^{K}\pi_{j}N(x_{n}|u_{j},\Sigma_{k})}$

（3）M步骤：使用当前的潜在变量重新估计参数

u n e w k = 1 N k \sum n = 1 N r (z n k) x n

$u_{k}^{new}=\frac{1}{N_{k}}\sum_{n=1}^{N}r(z_{nk})x_{n}$

Σ n e w k = 1 N k \sum n = 1 N r (z n k) (x n - u n e w k) (x n - u n e w k) T

$\Sigma_{k}^{new}=\frac{1}{N_{k}}\sum_{n=1}^{N}r(z_{nk})(x_{n}-u_{k}^{new})(x_{n}-u_{k}^{new})^{T}$

π n e w k = N k N

$\pi_{k}^{new}=\frac{N_{k}}{N}$

其中

N k = \sum n = 1 N r (z n k)

$N_{k}=\sum_{n=1}^{N}r(z_{nk})$

（4）计算对数似然函数

l n p (X | π, u, Σ) = \sum n = 1 N l n {\sum k = 1 K π k N (x n | u k, Σ k)}

$lnp(X|\pi, u, \Sigma)=\sum_{n=1}^{N}ln\left \{ \sum _{k=1}^{K}\pi_{k}N(x_{n}|u_{k},\Sigma_{k}) \right \}$

从前面这两个例子可以看出，引入潜在变量，E步骤就是固定原有参数，计算潜在变量的值，使得似然函数最大，这个潜在变量往往就是对应的后验；M步骤在E步骤得到的潜在变量的前提下，重新计算似然函数的最大值，更新参数。

EM算法

EM算法的目标是找到具有潜在变量的模型的最大似然解

现在我们将所有观测数据的集合记作 $X$ ，其中第n⾏表⽰ $x_{n}^{T}$ 。类似地，我们将所有潜在变量的集合记作 $Z$ ，对应的⾏为 $z_{n}^{T}$ 。所有模型参数的集合被记作 $\theta$ ，因此对数似然函数为:

l n p (X | θ) = l n {\sum Z p (X, Z | θ)}

$ln\ p(X|\theta)=ln\left \{ \sum_{Z}p(X,Z|\theta) \right \}$

现在从另一个视角出发，分析EM算法的求解过程。

假定对于 $X$ 中的每个观测，我们都有潜在变量 $Z$ 的对应值。我们将 $\left \{ X,Z \right \}$ 称为完整数据集，并且我们称实际的观测数据集 $X$ 是不完整的。完整数据集的对数似然函数的形式为 $ln\ p(X,Z | \theta)$ ，并且我们假定对这个完整数据的对数似然函数进⾏最⼤化是很容易的。

在实际应⽤中，我们往往没有完整数据集 $\left \{ X,Z \right \}$ ，只有不完整的数据 $X$ 。我们关于潜在变量 $Z$ 的取值的知识仅仅来源于后验概率分布 $p(Z | X, \theta)$ 。由于我们不能使⽤完整数据的对数
似然函数，因此我们反过来考虑在潜在变量的后验概率分布下，它的期望值，这对应于EM算法中的E步骤。在接下来的M步骤中，我们最⼤化这个期望。如果当前对于参数的估计为 $\theta^{old}$ ，那么⼀次连续的E步骤和M步骤会产⽣⼀个修正的估计 $\theta^{new}$ 。

在E步骤中，我们使⽤当前的参数值 $\theta^{old}$ 寻找潜在变量的后验概率分布 $p(Z | X, \theta^{old})$ 。然后，我们使⽤这个后验概率分布计算完整数据对数似然函数对于⼀般的参数值θ的期望。这个期望被记作 $Q(\theta, \theta^{old})$

Q (θ, θ o l d) = \sum Z p (Z | X, θ o l d) l n p (X, Z | θ)

$Q(\theta, \theta^{old})=\sum_{Z}p(Z|X,\theta^{old})ln\ p(X,Z|\theta)$

在M步骤，最大化下式来确定修正后的参数 $\theta^{new}$

θ n e w = a r g m a x θ Q (θ, θ o l d)

$\theta^{new}=argmax_{\theta}Q(\theta,\theta^{old})$

所以，现在来说，EM算法的另一种求解方法的步骤如下：

（1）选择参数 $\theta^{old}$ 的一个初始设置

（2）E步骤，计算 $p(Z|X,\theta^{old})$

（3）M步骤，计算 $\theta^{new}$ ，由下式给出。

θ n e w = a r g m a x θ Q (θ, θ o l d)

$\theta^{new}=argmax_{\theta}Q(\theta,\theta^{old})$

（4）检查对数似然函数或者参数值的收敛性。如果不满足收敛准则，那么更新参数 $\theta$ ，即 $\theta^{old}\leftarrow \theta^{new}$ ，并回到步骤2

一般形式的EM算法

考虑⼀个概率模型，其中我们将所有的观测变量联合起来记作 $X$ ，将所有的隐含变量记作 $Z$ 。联合概率分布 $p(X,Z | \theta)$ 由⼀组参数控制，记作 $\theta$ 。我们的⽬标是最⼤化似然函数:

p (X | θ) = \sum Z p (X, Z | θ)

$p(X|\theta)=\sum_{Z}p(X,Z|\theta)$

我们假设直接最优化 $p(X | θ\theta)$ ⽐较困难，但是最优化完整数据似然函数 $p(X,Z | \theta)$ 就容易得多。接下来，我们引⼊⼀个定义在潜在变量上的分布 $q(Z)$ 。我们观察到，对于任意的 $q(Z)$ ，下⾯的分解成⽴

l n p (X | θ) = L (q, θ) + K L (q ∥ p)

$ln\ p(X|\theta)=L(q,\theta)+KL(q\parallel p)$

其中，我们定义：

L (q, θ) = \sum Z q (Z) l n {p ( X , Z | θ ) q ( Z )}

$L(q,\theta)=\sum_{Z}q(Z)ln\ \left \{ \frac{p(X,Z|\theta)}{q(Z)} \right \}$

K L (q ∥ p) = - \sum Z q (Z) l n {p ( Z | X , θ ) q ( Z )}

$KL(q\parallel p)=-\sum_{Z}q(Z)ln\ \left \{ \frac{p(Z|X, \theta)}{q(Z)} \right \}$

这里， $L(q,\theta)$ 是概率分布 $q(Z)$ 的泛函，并且是参数 $\theta$ 的函数。注意， $L(q,\theta)$ 包含了X和Z的联合概率分布；而 $KL(q\parallel p)$ 包含了给定X条件下，Z的条件概率分布。

因为 $KL(q\parallel p)$ 是 $q(Z)$ 和 $p(Z|X,\theta)$ 的KL散度，它是大于等于0的，当且仅当 $q(Z)=p(Z|X,\theta)$ 时等号成立。因此， $L(q,\theta) <= ln\ p(X|\theta)$ ，即 $L(q,\theta)$ 是 $ln\ p(X|\theta)$ 的一个下界。

EM算法是一个两阶段的迭代优化算法，可以使用上面定义的分解式来定义EM算法。

在E步骤时，下界 $L(q,\theta^{old})$ 关于 $q(Z)$ 被最大化，而 $\theta^{old}$ 保持固定。因为 $ln\ p(X|\theta^{old})$ 本身不依赖 $q(Z)$ ，所以 $L(q,\theta^{old})$ 的最大值出现在KL散度为0的时候，也就是 $q(Z)=p(Z|X,\theta^{old})$ 的时候，此时，下界是对数似然函数，如下：

这里写图片描述

在M步骤时， $q(Z)$ 保持固定，下界 $L(q,\theta)$ 关于 $\theta$ 进行最大化，得到新的值 $\theta^{new}$ ，这会使得下界 $L$ 增大（除非已经达到极大值），然后导致对应的对数似然函数增加；由于概率分布 $q$ 由旧的参数确定，并且在M步骤保持固定，因此它不会等于新的后验概率分布 $p(Z|X,\theta^{new})$ ，从而 $KL$ 散度非零。于是，对数似然函数的增大量大于下界的增大量，如下：

这里写图片描述

EM算法的计算也可以被看做是参数空间的运算。这⾥，红⾊曲线表⽰（不
完整数据）对数似然函数，它的最⼤值是我们想要得到的。我们⾸先选择某个初始的参数值 $\theta^{old}$ ，然后在第⼀个E步骤中，我们计算潜在变量上的后验概率分布，得到了 $L(q,\theta^{old})$ 的⼀个更⼩的下届，它的值等于在 $\theta^{old}$ 处的对数似然函数值，⽤蓝⾊曲线表⽰。注意，下界与对数似然函数在 $\theta^{old}$ 处以切线的⽅式连接。在M步骤中，下界被最⼤化，得到了新的值 $\theta^{new}$ ，这个值给出了⽐ $\theta^{old}$ 处更⼤的对数似然函数值。接下来的E步骤构建了⼀个新的下界，它在 $\theta^{new}$ 处与对数似然函数切线连接，⽤绿⾊曲线表⽰。

这里写图片描述

GZGlenn

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
PRML读书笔记——混合模型与EM

如果观测变量上的边缘概率分布很复杂，可以引入潜在变量，得到观测变量和潜在变量的更加便于计算的联合概率分布。利用联合概率分布分析观测变量的概率。也就是说，潜在变量的引入是的复杂的概率分布可以由简单的分量组成。EM算法是找到具有潜在变量的模型的最大似然解的方法，本章的主要目的是讲解EM算法。首先通过Kmeans聚类和混合高斯模型引出EM算法，最后给出EM算法的通用形式和理论说明。K均值聚类这里介绍K均值
复制链接

扫一扫