热门算法总结 —— AP聚类

稀饭居然不在家

于 2022-03-18 15:52:30 发布

阅读量5.5k

点赞数 4

文章标签：聚类算法机器学习数据分析数据挖掘

本文链接：https://blog.csdn.net/A_1245/article/details/123576959

版权

AP聚类是一种无需预设类数的聚类算法，源于2007年，通过数据点间的信息传递实现自动识别类中心。与K-Means相比，AP算法稳定且对初始条件不敏感，适用于非对称数据。尽管复杂度较高，但其优点在于确定性结果和广泛的数据适用性。在小明班级成绩聚类案例中，30名同学被分为学霸、普通和学渣三类。

摘要由CSDN通过智能技术生成

1、算法简介

（1）概述：AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚类算法。该算法无需事先定义类数，而是在迭代过程中不断搜索合适的聚类中心，自动从数据点间识别类中心的位置及个数，使所有的数据点到最近的类代表点的相似度之和最大。算法开始时把所有的数据点均视作类中心，通过数据点间的“信息传递”来实现聚类过程。与传统的K-均值算法对初始类中心选择的敏感性相比，AP算法是一种确定性的聚类算法，多次独立运行的聚类结果一般都十分稳定。AP算法是在数据点的相似度矩阵上进行聚类的，聚类的目标是使数据点与其类代表点之间的距离达到最小化。

（2）主要用途：聚类分析。

（3）优缺点

[1] 优点：第一，与众多聚类算法不同，AP聚类不需要指定K(经典的K-Means)或者是其他描述聚类个数(SOM中的网络结构和规模)的参数；第二，一个聚类中最具代表性的点在AP算法中叫做E（Examplar），与其他算法中的聚类中心不同，E是原始数据中确切存在的一个数据点，而不是由多个数据点求平均而得到的聚类中心(K-Means)；第三，多次执行AP聚类算法，得到的结果是完全一样的，即不需要进行随机选取初值步骤；第四，对距离矩阵的对称性没要求。AP通过输入相似度矩阵来启动算法，因此允许数据呈非对称，数据适用范围非常大，且误差平方和低。

[2] 缺点：第一，算法复杂度较高，