1. 聚类算法
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
聚类分析的算法可以分为:
- 划分法(Partitioning Methods)
- 层次法(Hierarchical Methods)
- 基于密度的方法(density-based methods)
- 基于网格的方法(grid-based methods)
- 基于模型的方法(Model-Based Methods)
K-Means
k-means 算法接受输入量 k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-Means 算法的工作过程说明如下:
- 首先从n个数据对象任意选择 k 个对象作为初始聚类中心;
- 而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的&