（系列笔记）24.GMM算法（上）

最新推荐文章于 2024-06-18 16:59:38 发布

WNotSyer

最新推荐文章于 2024-06-18 16:59:38 发布

阅读量380

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_41909317/article/details/88650914

版权

本文介绍了GMM（高斯混合模型）的原理，包括从个体与集体的角度理解样本归属，已知分布条件下如何归属样本，以及在未知分布参数时的学习目标。文章通过实例解释了如何利用贝叶斯公式进行软归属，并探讨了采用高斯分布作为模型的原因。

摘要由CSDN通过智能技术生成

文章目录

GMM——将“混”在一起的样本各归其源

GMM——将“混”在一起的样本各归其源

个体 vs 集体

前面我们讲的 KMeans 和谱聚类都是将特征空间中的一个个个体，依据它们相互之间的关系，归属到不同的簇中。

用个形象点的比喻，我们将特征空间想象成一个二维的平面，样本数据则是“散落”在这个平面上的一颗颗“豆子”。

前面讲的聚类方法就好像：我们根据某种原则（KMeans 和谱聚类的具体原则不同），把这些“散落在地”的“豆子”捡到一个个“筐”里。

这些“豆子”原本并没有一个特定的归属，是我们在“捡”的过程中决定了把它们扔到哪个“筐”里。某一颗“豆子”被归属到某个“筐”的原因，很大程度上受它周围“豆子”归属的影响。

反过来，如果我们这么考虑问题：在特征空间中的样本，其实都是有各自的归属的。本来一个特定的样本就应该属于一个特定的簇。只不过，在我们拿到样本的时候，原本属于不同簇的若干样本在特征空间中“混在了一起”。我们要做的，其实是把它们按照原本的归属区分开。

我们拿了一个西红柿，“啪”一下摔在了厨房的地板上，摔了个粉碎，于是形成了左下的一片红色“颗粒”；然后拿了一个猕猴桃，“啪”地摔成了右侧那一片绿色“颗粒”；又摔了个苦瓜，形成了左上的一片黄色颗粒。
在这里插入图片描述
这个时候，我们让一个小机器人来把这三种瓜果的碎屑颗粒分别收拾到三个不同的容器里。这个小机器人是个色盲，它看到的厨房地板是下图这个样子的：