聚类 6 Affinity Propagation

最新推荐文章于 2024-06-23 10:47:54 发布

mengxiaozuo

最新推荐文章于 2024-06-23 10:47:54 发布

阅读量1.1k

点赞数

分类专栏：模式识别

模式识别专栏收录该内容

45 篇文章 2 订阅

订阅专栏

Affinity Propagation Clustering（吸引力传播聚类，简称AP算法）是2007在Science上发表的一篇single-exemplar-based的聚类方面的文章。特别适合高维、多类数据快速聚类，相比传统的聚类算法，从聚类性能和效率方面都有大幅度的提升，下文将详细介绍AP算法。

对于个数据点的聚类问题，设定数据点为x(i)，i= 1,2,...,N。吸引力传播聚类（AP）算法选择数据点之间的相似度s(i,k) = sum((x(i)-x(k)).^2)作为输入，其中s(i,k)表征数据点x(k)与数据点x(i)之间的相似程度。根据相似度公式有s(k,k) = 0，由于s(k,k)表征的是数据点x(k)成为聚类中心的能力大小，即偏好参数，所以就不能根据测度性质将其设置为0，而应该结合其他数据点来共同确定。AP算法认为，迭代开始之前所有数据点成为聚类中心的能力大小相同，所以对于所有数据点设置相同的偏好参数，一般选择为所有相似度值的最小值或者中值，即s(k,k) = min(s(i,j))(i,j=1,2,...N)或者s(k,k) = median(s(i,j))(i,j=1,2,...N)。s(k,k)越大，表征任意数据点x(k)成为聚类中心的能力越强，则最终聚类数目越大；反之，则最终聚类数目越小。

AP算法中，数据点之间传递着两种信息，即吸引度信息r(i,k)和归属度信息a(i,k)，每一种信息侧重一种竞争。AP算法为选择合适的聚类中心需要不断的从数据点中搜集两方面的证据：候选聚类中心x(k)对任一数据点x(i)的吸引度信息r(i,k)和数据点x(i)选择候选聚类中心x(k)的归属度信息a(i,k)。当两种信息都较大时，说明数据点x(k)成为聚类中心的能力较大。通过不断的迭代过程，两种信息在数据点之间传递，直到选出m个聚类中心和确定数据点与聚类中心的归属关系为止。

吸引度信息的计算公式如下：

对于任意数据点x(i)，所有候选聚类中心都在争夺对它的所有权，从而吸引度信息r(i,k)反映了综合考虑其它候选聚类中心对于数据点x(i)的吸引力的同时，候选聚类中心x(k)作为数据点x(i)的聚类中心的累积证据。这样一来，对应于r(i,k)>0的数据点x(k)成为数据点x(i)的聚类中心的能力应该较大。然而这样并未考虑数据点x(k)对于其他候选聚类中心的归属程度，所以可能会造成聚类中心数目远大于实际聚类中心数目的问题。

归属度信息则从数据点中收集证据，从而判定一个候选聚类中心是否是一个好的聚类中心。归属度信息计算公式如下：

它反映了综合考虑数据点x(k)作为其它数据点的聚类中心时，在这些数据点对聚类中心x(k)的支持作用的前提下，数据点x(i)属于候选聚类中心x(k)所代表的类的累积证据。

得到吸引度信息r(i,k)和归属度信息a(i,k)之后，就可以结合这两种信息来进行样本点的决策。对于固定的数据点x(i)，相比其他数据点，如果数据点x(k)能使得r(i,k)+a(i,k)达到最大，则说明：1）选择数据点x(k)作为数据点x(i)的样本点(exemplar，即聚类中心)最合适；2）数据点x(k)最愿意成为数据点x(i)的样本点。

为了避免振荡，AP算法更新信息时引入了衰减系数lamda。每条信息被设置为它前次迭代更新值的lamda倍加上本次信息更新值的1-lamda倍。其中，衰减系数lamda是介于0到1之间的实数。在AP算法中，使用默认的衰减系数lamda = 0.5。这样，吸引力传播算法的每一次迭代包含：1）更新吸引度信息，给出归属度信息；2）更新归属度信息，给出吸引度信息；3）结合归属度信息和吸引度信息来监控样本点的决策，如果这些决策经过若干次迭代之后保持不变或者算法执行超过设定的迭代次数，又或者一个小区域内的关于样本点的决策经过数次迭代后保持不变，则算法结束。

从而数据点x(i)的样本点的决策公式如下：

其中ci代表和数据点x(i)匹配的样本点。

下图具体表示了r(i,k)和a(i,k)的竞争过程。

相比k-means等传统聚类算法，AP算法不需要事先给定聚类中心个数，算法在迭代过程中展示数据集的内部结构，并确定合适的聚类个数，同时效率非常高。至今对于AP的改进和应用也非常多，有兴趣的同学可以重点关注下哈。

mengxiaozuo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类 6 Affinity Propagation

Affinity Propagation Clustering（吸引力传播聚类，简称AP算法）是2007在Science上发表的一篇single-exemplar-based的聚类方面的文章。特别适合高维、多类数据快速聚类，相比传统的聚类算法，从聚类性能和效率方面都有大幅度的提升，下文将详细介绍AP算法。对于个数据点的聚类问题，设定数据点为x(i)，i= 1,2,...,N。吸引力
复制链接

扫一扫

专栏目录