相似度/距离计算方法总结
聚类的基本思想和方法
基本思想
对于给定的类别数目k,首先给出初始化分,通过迭代改变样本核簇的隶属关系,使得每一次改进之后的划分方案都较前一次好
方法
本文大概会讲到的聚类
Affinity Propagation
原理
假设我们有N个数据,那么AP聚类就是把这N个数据看成N个人,然后这N个人之间进行投票,选择出几个leader
名词介绍
Exemplar
:指聚类中心,在AP聚类里,聚类中心是明确的点(leader)
Similarity
:s(i,j),指点j作为点i的聚类中心的相似度
Preference
:s(i,i) 或 p(i),指点i作为聚类中心的参考度,一般取s的Similarity的中值
Responsibility
:r(i,k),描述k适合作为i的聚类中心的程度
Availability
:a(i,k),描述i选择k作为聚类中心的适合程度
Damping factor
:阻尼系数,为了避免振荡
阻尼系数
r ( i , k ) = λ ∗ r ( i , k ) o l d + ( 1 − λ ) ∗ r ( i , k ) r(i,k) = λ*r(i,k)old + (1-λ)*r(i,k) r(i,k)=λ∗r(i,k)old+(1−