K-means算法与GMM和EM之间的关系

最新推荐文章于 2023-08-23 18:32:41 发布

风吹草地现牛羊的马

最新推荐文章于 2023-08-23 18:32:41 发布

阅读量299

点赞数

分类专栏：变分贝叶斯系列机器学习

本文链接：https://blog.csdn.net/mch2869253130/article/details/115008054

版权

机器学习同时被 2 个专栏收录

97 篇文章 5 订阅

订阅专栏

变分贝叶斯系列

22 篇文章 12 订阅

订阅专栏

EM算法的流程：

随机初始化未知参数，初始化值记为 $\theta^{old}$
E-STEP:
- 求隐变量 $z$ 的后验： $p(z|x;\theta^{old}) = {p(z,x;\theta^{old}) \over \int p(z,x;\theta^{old})dz}$
- 求完全数据 $(x, z)$ 的对数似然关于 $z$ 的后验的期望： $E_{p(z|x;\theta^{old})}[logp(x,z;\theta)]$
M-STEP:
最大化期望： $E_{p(z|x;\theta^{old})}[logp(x,z;\theta)]$ ，也就是 $\hat{\theta}=argmax_{\theta} E_{p(z|x;\theta^{old})}[logp(x,z;\theta)]$
令 $\theta^{old} = \hat{\theta}$ ，并开启下一轮迭代。

用EM算法求解GMM算法的流程： 在这里插入图片描述
其中， $\pi_{k}$ 是第k个高斯的先验，一般 $\pi_{k}={1 \over K}$ 。
$\tag{1} \gamma_{i,k}=p(z|x_i;\theta^{old})={\pi_{k}N(x_i;\mu_{k}, \Sigma_{k}) \over \Sigma_{j}^{K}\pi_{j}N(x_i;\mu_{j}, \Sigma_{j})}$
是后验分布。

我们令 $\Sigma_{k}=\epsilon$ ，考虑GMM中 $\epsilon 趋近于0的情况$ （这时其实变成了狄拉克分布，狄拉克分布是高斯分布在协方差趋于0的一种特殊情况）。

在E-step中
（1）式变成：

$\begin{aligned} \tag{2} \gamma_{i,k}= & {\pi_{k}N(x_i;\mu_{k}, \Sigma_{k}) \over \Sigma_{j}^{K}\pi_{j}N(x_i;\mu_{j}, \Sigma_{j})} \\ = & {\pi_{k}exp(-{1 \over 2\epsilon}(x_{i}-\mu_{k})^{2}) \over \sum_{j}^{K} \pi_{j}exp(-{1 \over 2\epsilon}(x_{i}-\mu_{j})^{2})} \end{aligned}$

假设 $x_{i}$ 距离 $\mu_{k}$ 最近，也就是 $(x_i-\mu_k)^{2}$ 最小。根据类内距最小，类间距最大的原则，在分母中， $(x_{i}-\mu_{j})^{2}，j \neq k$ 都比 $(x_i-\mu_k)^{2}$ 要大的多。根据指数函数的单调性可知，其他项都趋于0。根据求极限的法则，在 $\epsilon \to0时，(x_i-\mu_{k})^2最小，等价于\gamma_{i,k} \to1$ 。这种情况下，相当于每个样本获得了一个硬分配，和k-means一样。

M-step中
$\begin{aligned} \tag{3} E_{p(z|x;\theta)}[logp(x_i,z;\theta)]= & \sum_{k}^{K}\sum_{i}^{n} \gamma_{i,k}[ln\pi_{k}+lnN(x_i;\mu_{k}, \Sigma_{k})]\\ \end{aligned}$

当 $\epsilon \to 0$ 时，（3）式变成：
$\begin{aligned} \tag{4} E_{p(z|x_i;\theta)}[logp(x,z;\theta)]= & \sum_{k}^{K}\sum_{i}^{n} \gamma_{i,k}[ln\pi_{k}+lnN(x_i;\mu_{k}, \Sigma_{k})]\\ = & \sum_{k}^{K}\sum_{i}^{n}\gamma_{i,k}ln\pi_{k + } + \sum_{k}^{K}\sum_{i}^{n}\gamma_{i,k}ln{1 \over \sqrt{2\pi \epsilon}} -{1\over 2\epsilon} \sum_{k}^{K}\sum_{i}^{n}\gamma_{i,k}(x_i-\mu_k)^2\\ = & const + {1 \over \epsilon} \sum_{k}^{K}[\sum_{i}^{n}\gamma_{i,k} (ln{1 \over \sqrt{2\pi}}-(x_i-\mu_k)^2)] \end{aligned}s$
在M-step中，只有 $\mu_k$ 是未知的，其他都是已知的，所以只需要让 $\mu_k$ 使得上式最大即可。也就是 $\sum_{k}^{K}[\sum_{i}^{n}\gamma_{i,k} (ln{1 \over \sqrt{2\pi}}-(x_i-\mu_k)^2)]$ 最大。通过对 $\mu_k$ 求导得： $\mu_k={\sum_i^{n}\gamma_{i,k}x_i \over \sum_{i}^n\gamma_{i,k}}$ 。

从此可知，K-Means算法其实是GMM的EM解法在高斯分量协方差 $\Sigma \to 0$ 时的一个特例。

参考：https://blog.csdn.net/tingyue_/article/details/70739671

风吹草地现牛羊的马

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
K-means算法与GMM和EM之间的关系

EM算法的流程：随机初始化未知参数，初始化值记为θold\theta^{old}θoldE-STEP:求隐变量zzz的后验：p(z∣x;θold)=p(z,x;θold)∫p(z,x;θold)dzp(z|x;\theta^{old}) = {p(z,x;\theta^{old}) \over \int p(z,x;\theta^{old})dz}p(z∣x;θold)=∫p(z,x;θold)dzp(z,x;θold)求完全数据(x,z)(x,z)(x,z)的对数似然关于zzz的后验的期望：
复制链接

扫一扫