AP聚类一般翻译为近邻传播聚类,07年被提出,其优点有:
- 不需要制定最终聚类族的个数
- 已有的数据点作为最终的聚类中心,而不是新生成一个族中心。
- 模型对数据的初始值不敏感。
- 对初始相似度矩阵数据的对称性没有要求。
- 相比与k-centers聚类方法,其结果的平方差误差较小。
首先简要介绍一下AP算法,跟其他聚类算法的不同之处是,AP在开始时,将所有节点都看成潜在的聚类中心,然后通过节点之间的通信,去找出最合适的聚类中心,并将其他节点划分到这些中心下去,所以我们可以认为,AP算法所要做的事情就是去发现这些聚类中心。
AP的输入是一个节点间的相似度矩阵,S,其中S(i,j)表示节点i和节点j之间的相似度,也表明了,j作为i的聚类中心的合适程度,这个相似度的计算可以根据具体应用场景,这里未免误导不作相似度的假设。其中S(k,k)表示节点k作为k的聚类中心的合适程度,可以理解为,节点k成为聚类中心合适度,在最开始时,这个值是初始化的时候使用者给定的值,会影响到最后聚类的数量。
AP中节点间传递的消息为两类:吸引度和归属度。
首先,吸引度是节点i传递向节点k的信息,传达了节点k对节点i的吸引度,记为r(i,k),那么如何来衡量这个吸引度,其实吸引度是一个相对的概念,先前我们有相似度矩阵记录了k成为i的聚类中心的合适程度,那么这里我们只需要证明k比其他节点更合适了就可以了,那么其他节点是否合适这个如何进行衡量呢,是否合适其实就是看这两个节点是否相互认可,对于其他节点k'我们有s(i,k')表示节点k'