聚类总结

最新推荐文章于 2022-08-26 16:48:33 发布

江謀人

最新推荐文章于 2022-08-26 16:48:33 发布

阅读量278

点赞数 1

分类专栏：机器学习总结

本文链接：https://blog.csdn.net/National_Committee/article/details/98035205

版权

机器学习总结专栏收录该内容

7 篇文章 0 订阅

订阅专栏

概念：聚类是针对给定的样本，依据它们特征的相似度与距离，将其归并到若干个‘类’或‘簇’的数据分析问题。聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理，在数据挖掘、模式识别等领域有着广泛的应用。
常用的聚类方法：
1）划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
2）层次聚类 Agglomerative 、divisive、BIRCH、ROCK、Chameleon
3）密度聚类 DBSCAN、OPTICS
4）网格聚类 STING
5）模型聚类 GMM
6）图聚类 Spectral Clustering（谱聚类）

主讲层次聚类和密度聚类

层次聚类
Agglomerative:自底向上，也称聚合法。自下而上的算法在一开始就将每个数据点视为一个单一的聚类，然后依次合并（或聚集）类，直到所有类合并成一个包含所有数据点的单一聚类
Divisive: 自顶向下，也称分裂法。将所有的点先分到一个类，；之后将最远的样本分到两个新的类，重复操作至满足条件为止。

DBSCAN聚类

1.DBSCAN以一个从未访问过的任意起始数据点开始。这个点的邻域是用距离ε（所有在ε距离的点都是邻点）来提取的。
2.如果在这个邻域中有足够数量的点（根据 minPoints），那么聚类过程就开始了，并且当前的数据点成为新聚类中的第一个点。否则，该点将被标记为噪声（稍后这个噪声点可能会成为聚类的一部分）。在这两种情况下，这一点都被标记为“访问（visited）”。
3.对于新聚类中的第一个点，其ε距离附近的点也会成为同一聚类的一部分。这一过程使在ε邻近的所有点都属于同一个聚类，然后重复所有刚刚添加到聚类组的新点。
4.步骤2和步骤3的过程将重复，直到聚类中的所有点都被确定，就是说在聚类附近的所有点都已被访问和标记。
5.一旦我们完成了当前的聚类，就会检索并处理一个新的未访问点，这将导致进一步的聚类或噪声的发现。这个过程不断地重复，直到所有的点被标记为访问。因为在所有的点都被访问过之后，每一个点都被标记为属于一个聚类或者是噪音。
DBSCAN比其他聚类算法有一些优势。首先，它不需要一个预设定的聚类数量。它还将异常值识别为噪声，而不像均值偏移聚类算法，即使数据点非常不同，它也会将它们放入一个聚类中。此外，它还能很好地找到任意大小和任意形状的聚类。
DBSCAN的主要缺点是，当聚类具有不同的密度时，它的性能不像其他聚类算法那样好。这是因为当密度变化时，距离阈值ε和识别邻近点的minPoints的设置会随着聚类的不同而变化。这种缺点也会出现在非常高维的数据中，因为距离阈值ε变得难以估计。

参考：
李航，统计学习方法
五种主要的聚类方法
 常见的算法分类