1.要指定聚类类别数的算法有K-means和谱聚类;无需指定的有BIRCH和DBSCAN
2.K-means是基于质心,谱聚类基于无向图,BIRCH基于层次,DBSCAN基于密度
3.无法很好处理非凸数据集的聚类算法有K-means和BIRCH
4.能够检测异常点的聚类算法是BIRCH和DBSCAN
5.谱聚类能够很好处理稀疏数据集
聚类算法是一种无监督式学习算法,其目的是把同属一个类别的物体聚合在一起,聚合在一起的样本称为簇,算法的核心就是如何定义簇,通常采取相似性度量。
我们重点介绍了五种聚类算法:基于质心的K-means算法,基于概率分布的GMM算法,基于密度的DBSCAN算法,基于无向图的谱聚类,以及基于层次聚类的BIRCH算法,其中K-means可以看成GMM的特殊情形。
这一篇我们对这几个聚类算法做一下总结(sklearn包介绍)以及分享一些实操案例。
往期文章: