一、Kmeans
1.欧几里德距离在高维度时会膨胀,所以先做降维
2.终止条件是新旧中心点的距离小于一个阈值,即中心点几乎不再动了
3.由于初始中心点对结果影响很大,所以要选不同的初始点多次建模
二、AffinityPropagation
原理:目的是找到一些标本点,可以代表所有样本。
两样本点间互通的信息有两种:
responsibility(吸引度) r(i,k)表示k样本可以作为i样本的标本的程度
availability(归属度) a(i,k)表示i样本应该选k为标本的程度
初始时r和a的值为0
为防止数据振动,引入阻尼系数lambda来校正
三、HierarchicalClustering 层次聚类
合并类的方法有:
ward:最小化类间方差和
complete:最小化最远距离
average:最小化平均距离
距离算法可选