这里有一篇论文《Survey of Clustering Algorithms》Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE。主要讲聚类算法的综述。这篇文章几乎将各个领域的聚类算法给一网打尽,太好了。从各种方向上来谈论聚类算法(层次, 划分 ,大数据集, 图形,文本聚类 , 模糊聚类 等),以及聚类的相关问题(如何计算距离, 如何确定聚类个数, 如果对聚类结果进行评价等)。
摘要:在认识的过程中数据分析发挥着不可缺少的作用.,初始的探索需要很少甚至没有先验知识的 聚类分析的研究横跨许多研究领域. 这种多样性造成两方面困难,一方面需要我们掌握许多的工具,另一方面,选择的多样性使我们很容易混淆。所以我们对聚类在统计、计算机科学、机器学习等方向上数据集的算法进行总结,并举例说明了他们在一些标准数据集上的应用, 和在新领域像旅行者问题和生物信息学方向等领域所取得的成就。附带着进行了一些相近的问题的讨论, 例如相似度测量、聚类有效性等。
这是文章第二部分基本结构
II. Clustering Algorithms
• A. Distance and Similarity Measures(距离和相似度)
(See also Table I)
• B. Hierarchical(层次聚类)
— Agglomerative
Single linkage, complete linkage, group average
linkage, median linkage, centroid linkage,Ward’s
method, balanced iterative reducing and clustering
using hierarchies (BIRCH), clustering using representatives
(CURE), robust cl