聚类

最新推荐文章于 2023-06-02 17:58:20 发布

serenysdfg

最新推荐文章于 2023-06-02 17:58:20 发布

阅读量306

点赞数

分类专栏：机器学习数据挖掘

本文链接：https://blog.csdn.net/serenysdfg/article/details/107829538

版权

机器学习同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

数据挖掘

9 篇文章 0 订阅

订阅专栏

层次聚类

原理

先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。

层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为自下而上法（bottom-up）和自上而下法（top-down）。

自下而上法就是一开始每个个体（object）都是一个类，然后根据linkage寻找同类，最后形成一个“类”。自上而下法就是反过来，一开始所有个体都属于一个“类”，然后根据linkage排除异己，最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。

根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等（其中类平均法往往被认为是最常用也最好用的方法，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中）。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。

层次聚类的优缺点

优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状

缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状

主要：Kmeans聚类算法、高斯混合模型GMM及EM算法等

高斯混合模型GMM聚类算法

概念：混合高斯模型就是指对样本的概率密度分布进行估计，而估计的模型是几个高斯模型加权之和（具体是几个要在模型训练前建立好）。每个高斯模型就代表了一个类（一个Cluster）。对样本中的数据分别在几个高斯模型上投影，就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。

优缺点：

优点：应用最为广泛；收敛速度快；能扩展以用于大规模的数据集

缺点：倾向于识别凸形分布、大小相近、密度相近的聚类；中心选择和噪声聚类对结果影响大

和kmeans区别：

每个样例分配的类别有一定概率

GMM 和 k-means 很像，不过 GMM 是学习出一些概率密度函数来（所以 GMM 除了用在 clustering 上之外，还经常被用于 density estimation ），简单地说，k-means 的结果是每个数据点被分配到其中某一个 cluster 了，而 GMM 则给出这些数据点被分配到每个 cluster 的概率，又称作 soft assignment，也称为软聚类。

1.GMM和K-means很相似，相似点在于两者的分类受初始值影响；两者可能限于局部最优解；两者类别的个数都要靠猜测。

2.K-means属于硬聚类，要么属于这类，要么属于那类，而GMM属于混合式软聚类，一个样本70%属于A，30%属于B；同时多维的GMM在计算均值和方差时使用了协方差，应用了不同维度之间的相互约束关系。

3K-means是欧式距离，而GMM是马氏距离，当协方差非对角线元素为0时，马氏距离也就变成了欧式距离。（参考：https://blog.csdn.net/qq_38150441/article/details/80498590）