Affinity Propagation Clustering(吸引力传播聚类,简称AP算法)是2007在Science上发表的一篇single-exemplar-based的聚类方面的文章。特别适合高维、多类数据快速聚类,相比传统的聚类算法,从聚类性能和效率方面都有大幅度的提升,下文将详细介绍AP算法。
对于个数据点的聚类问题,设定数据点为x(i),i= 1,2,...,N。吸引力传播聚类(AP)算法选择数据点之间的相似度s(i,k) = sum((x(i)-x(k)).^2)作为输入,其中s(i,k)表征数据点x(k)与数据点x(i)之间的相似程度。根据相似度公式有s(k,k) = 0,由于s(k,k)表征的是数据点x(k)成为聚类中心的能力大小,即偏好参数,所以就不能根据测度性质将其设置为0,而应该结合其他数据点来共同确定。AP算法认为,迭代开始之前所有数据点成为聚类中心的能力大小相同,所以对于所有数据点设置相同的偏好参数,一般选择为所有相似度值的最小值或者中值,即s(k,k) = min(s(i,j))(i,j=1,2,...N)或者s(k,k) = median(s(i,j))(i,j=1,2,...N)。s(k,k)越大,表征任意数据点x(k)成为聚类中心的能力越强,则最终聚类数目越大;反之,则最终聚类数目越小。
AP算法中,数据点之间传递着两种信息,即吸引度信息r(i,k)和归属度信息a(i,k),每一种信息侧重一种竞争。AP算法为选择合适的聚类中心需要不断的从