一、分级聚类 Hierarchical Cluster
分级聚类通过连续不断的将最为相似的群组两两合并,来构造一个群组的层次结构。其中的每个群组都是从单一元素开始,在每次迭代的过程中,都会计算两个群体之间的距离,并将距离最近的两个群组合并。并重复这一过程,直到只剩一个群组。
代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;
二、划分法
使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
1、 K-Means Cluster
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
原理如图:
公式:
1、随机选取K个质心的值
2、计算各个点到质心的距离
3、将点的类划分为离他最近的质心,形成K个cluster
4、根据分