K-Means：隐变量、聚类、EM

最新推荐文章于 2022-03-26 11:55:28 发布

anarion

最新推荐文章于 2022-03-26 11:55:28 发布

阅读量359

点赞数 1

分类专栏：统计学和机器学习文章标签：聚类机器学习算法隐马尔科夫模型 em

本文链接：https://blog.csdn.net/weixin_42523849/article/details/107453343

版权

K-Means：隐变量、聚类、EM

本文「最后」将介绍著名的KMeans算法，在此之前，先作一系列铺垫。只知道KMeans算法本身远远不够，且算法十分简单，并不值得花一整篇博客讲解。知其然且知其所以然，非常重要。

故本文从含有隐变量的概率模型开始讲起，介绍清楚最一般的情况，看看怎么用EM算法求解隐变量模型的最大似然估计。最后KMeans算法的出现就显得十分简单，几乎不值一提。阅读本文，你不但将知道KMeans算法的来龙去脉，还将对贝叶斯统计和隐变量模型有更深的理解。

如果你只想了解KMeans算法，一点数学推理都不想看，可以直接跳到文章的最后一个h1标题下的第一个标题。

本文思维导图：

本文的md源码地址：AnBlogs

无监督学习和隐变量

无监督学习，就是目标没有给出的机器学习模型。聚类问题中，给出的数据没有「标签」，需要让模型「学」标签，并且能够把新来的数据归到标签中。

这样在数据集中没有给出的量，就是「隐变量」。聚类问题中，「隐变量」是模型的目标。在其他问题中，隐变量不一定是目标，可能是一个中间变量。故具有隐变量的模型不一定是无监督模型，无监督模型一定有隐变量。

概率模型描述

模型的任务

要对一系列对象特征（一行数据） $x$ 进行分类，分类的「标签」未知，需要模型自己发现。也就是「无监督学习」。可以理解为，数据表中的每一行有一个隐藏列，这个列的值没有给出，但模型认为这个列存在。

假设每个特征 $x$ 都对应一个隐变量 $z$ ， $z$ 表示这个特征的「聚类」，也就是模型训练的结果。也就是说，数据集中的每一行都有一个隐藏属性，表示这一行对象的聚类。 $z$ 离散取值，模型的任务，就是求 $p(z=k|x,\theta)$ 。也就是，给定输入数据 $x$ 和参数 $\theta$ 的前提下，这个数据分类到某个聚类 $k$ 的概率。

和「监督学习」相比，监督学习的数据集中，数据的分类是给出的，通常用 $y$ 表示，不是「隐」的。

以下先探索最一般的情况，再带入具体的随机变量取值状况和服从的分布。

带入贝叶斯公式变形

直接给模型带入贝叶斯公式，对于一行数据 $x^{(i)},z^{(i)})$ ：
$p(z^{(i)}|x^{(i)},\theta)=\frac{p(z^{(i)},x^{(i)}|\theta)}{p(x^{(i)}|\theta)}$
展开分子：
$p(z^{(i)},x^{(i)}|\theta)=p(z^{(i)}|\theta)p(x^{(i)}|z^{(i)},\theta)$
展开分母：
$p(x^{(i)}|\theta)=\int p(x^{(i)},z^{(i)}|\theta)dz=\int p(z^{(i)}|\theta)p(x^{(i)}|z^{(i)},\theta)dz$
这里将 $z$ 写作积分，为了适应更广泛的情况。当 $z$ 离散取值时，把积分换成求导即可，没有区别。

后验和似然

按照惯例，写出参数的后验和似然。这里需要特别注意，由于 $z$ 实际并未给出，在后验表达式中，不可以出现 $z$ 。换句话说，表示数据集的 $D$ 中不含 $z^{(i)}$ ，只含 $x^{(i)}$ 。要估计参数， $z$ 必须作为中间量，不出现在最终结果中。故后验表达式应具有以下形式：
$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$
其中似然展开：
$p(D|\theta)=\prod_ip(x^{(i)}|\theta)=\prod_i\int p(x^{(i)},z^{(i)}|\theta)dz=\prod_i\int p(z^{(i)}|\theta)p(x^{(i)}|z^{(i)},\theta)dz$
取似然的对数：
$l(\theta)=\log p(D|\theta)=\sum_i\log\int p(x^{(i)},z^{(i)}|\theta)dz$
要表达后验的对数也十分简单，是需要多乘一项作为先验：
$l(\theta)=\sum_i\log\int p(x^{(i)},z^{(i)}|\theta)p(\theta)dz$
要求最大似然估计，或最大后验估计，优化问题都非常复杂。解决此类优化问题，常使用EM算法。

EM算法 (Expectation Maximization)

这个算法非常复杂，先介绍算法流程，带入一个具体例子GMM，再讲解原理。

流程

算法是一个迭代的过程，使用上一次迭代计算的结果 $\theta^{(t)}$ 进行本次计算，得到新的结果 $\theta^{(t+1)}$ 更新参数的估计值。

算法分成两步，E和M，以下分别介绍。
算法流程

E步

$\log$ 中包含积分，是计算困难所在。

在此设置另一种「似然」，以求绕开这个积分。具体这样做的原因，在后文有解释。
$l_c^{(i)}(\theta)=\log p(x^{(i)},z^{(i)}|\theta)$
计算一个「条件均值」，作为「辅助函数」：
$Q(\theta|\theta^t)=\underset{z^{(i)}|x^{(i)},\theta^{t}}{E}[\sum_il_c^{(i)}(\theta)]=\sum_i\underset{z^{(i)}|x^{(i)},\theta^{t}}{E}[l_c^{(i)}(\theta)]$
设置另一种「后验」也很类似：
$l_c^{(i)}(\theta)=\log p(x^{(i)},z^{(i)}|\theta)+\log p(\theta)$
由于「最大似然估计」和「最大后验估计」的EM算法求解过程几乎相同，下文只讲「最大似然估计」的情况，「最大后验估计」只需加上一项即可。

M步

最大化「辅助函数」，使用此时的 $\theta$ 作为新的参数值：
$\theta^{(t+1)}=\arg\max_\theta Q(\theta)$

混合高斯模型 (GMM)

这里带入著名的「混合高斯模型」，看看算法具体是怎样运行的。

带入混合高斯模型，就是指明了分布。 $z$ 离散取值，使用「多项伯努利分布」描述，参数为 $\pi$ ，下标 $k$ 表示「取离散值 $k$ 的概率」。 $x$ 连续取值，使用「正态分布」描述，参数为均值和协方差 $\mu,\Sigma$ 。把参数写在一起，方便表示， $\theta=(\mu,\Sigma,\pi)$ 。对于每个聚类 $k$ ，都有一组参数， $\theta_k=(\mu_k,\Sigma_k,\pi_k)$ 。
$p(z^{(i)}=k|\pi)=\pi_k,p(x^{(i)}|z^{(i)}=k,\mu_k,\Sigma_k)=N(x^{(i)}|\mu_k,\Sigma_k)$
把聚类问题的目标表达成GMM：
$p(z^{(i)}=k|\theta,x^{(i)})\propto p(z^{(i)}=k|\theta)p(x^{(i)}|z^{(i)}=k,\theta)=\pi_kN(x^{(i)}|\mu_k,\Sigma_k)$
可以理解为，有 $K$ 个不同的正态分布，带有不同的参数 $\mu_k,\Sigma_k$ ，每个分布对于「应该归进哪个聚类」都有一定「话语权」 $\pi_k$ ，最终的选择是比较 $z$ 取这 $k$ 个不同值的概率、从而「共同决策」的结果。

如下图所示，图中有三个正态分布，对应三个类。每个正态分布对应参数 $\pi_k,\mu_k,\Sigma_k$ 。通过每个正态分布的参数，计算出样本 $x^{(i)}$ 分到 $k$ 聚类的概率为 $p(z^{(i)}=k|x^{(i)},\pi_k,\mu_k,\Sigma_k)$

最低0.47元/天解锁文章

anarion

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
K-Means：隐变量、聚类、EM

K-Means：从隐变量到聚类本文「最终」介绍著名的KMeans算法，在此之前，先作一系列铺垫。只知道KMeans算法本身远远不够，且算法十分简单，并不值得花一整篇博客讲解。知其然且知其所以然，非常重要。故本文从含有隐变量的概率模型开始讲起，介绍清楚最一般的情况。最后KMeans算法的出现就显得十分简单，几乎不值一提。阅读本文，你不但将知道KMeans算法的来龙去脉，还将对贝叶斯统计和隐变量模型有更深的理解。如果你只想了解KMeans算法，一点数学推理都不想看，可以直接跳到文章的最后一个h1标题下的第
复制链接

扫一扫