python 实现 AP近邻传播聚类算法(Affinity Propagation)

最新推荐文章于 2024-08-18 11:24:59 发布

Mrchesian

最新推荐文章于 2024-08-18 11:24:59 发布

阅读量1.1w

点赞数 5

分类专栏：机器学习数据挖掘 python 文章标签： python AP近邻传播聚类算法 Affinity Propagation python 实现 AP近邻传播聚类算法数据挖掘聚类算法

本文链接：https://blog.csdn.net/chen_shiqiang/article/details/52344909

版权

python 同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

机器学习

10 篇文章 0 订阅

订阅专栏

数据挖掘

9 篇文章 1 订阅

订阅专栏

Affinity Propagation (AP) 聚类是2007年在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点)。

AP算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中心,称之为 exemplar。以S矩阵的对角线上的数值s (k, k)作为k点能否成为聚类中心的评判标准,这意味着该值越大,这个点成为聚类中心的可能性也就越大,这个值又称作参考度p ( preference) 。聚类的数量受到参考度p的影响,如果认为每个数据点都有可能作为聚类中心,那么p就应取相同的值。如果取输入的相似度的均值作为p的值,得到聚类数量是中等的。如果取最小值,得到类数较少的聚类。

AP算法中传递两种类型的消息,(responsiility)和(availability) 。r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点是否适合作为i点的聚类中心。a(i,k)则从候选聚类中心k发送到i的数值消息,反映i点是否选择k作为其聚类中心。r (i, k)与a (i, k)越强,则k点作为聚类中心的可能性就越大,并且i点隶属于以k点为聚类中心的聚类的可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的exemplar,同时将其余的数据点分配到相应的聚类中。

在这里介绍几个文中常出现的名词：

exemplar：指的是聚类中心。

similarity：数据点i和点j的相似度记为S(i，j)。是指点j作为点i的聚类中心的相似度。

preference：数据点i的参考度称为P(i)或S(i,i)。是指点i作为聚类中心的参考度。一般取S相似度值的中值。

Responsibility：R(i,k)用来描述点k适合作为数据点i的聚类中心的程度。

Availability：A(i,k)用来描述点i选择点k作为其聚类中心的适合程度。

Damping factor：阻尼系数，主要是起收敛作用的。

AP聚类算法是将每个数据看成图中的一个节点，迭代的过程即是在图中通过传播信息来找到聚类集合。本文计算两个数据点的相似度采用距离的负数，也就是说距离越近，相似度越大。相似矩阵S中i到j的相似度就是刚刚所说的距离的负数。但是主对角线上的那些数表示的是某个点和自身的相似度，但是这里我们不能直接用0来表示。根据算法要求，主对角线上的值s(k,k)一般称为偏向参数，一般情况下对所有k，s(k,k)都相等，取非主对角线上的所有数的中位数。这个值很重要，他的大小与最后得到的类的数目有关，一般而言这个数越大，得到的类的数目就越多。

这里为什么要设定一个偏向参数而不直接用0来算呢，估计是因为AP聚类算法是要用图论的一些东西来理解的，它把所有的点都看成一个图中的节点，通过节点之间的信息传递来达到聚类的效果。具体比较复杂，形象一点说就是我告诉你我和这些人是死党，如果你认为你也是我死党的话，那你就加入我们这一堆人里面来吧！

有一些详细的原理上的东西就不说了，直接说计算过程吧。。聚类就是个不断迭代的过程，迭代的过程主要更新两个矩阵，代表(Responsibility)矩阵R = [r(i,k)]_N×N和适选(Availabilities)矩阵A=[a(i,k)]_N×N。这两个矩阵才初始化为0，N是所有样本的数目。r(i,k)表示第k个样本适合作为第i个样本的类代表点的代表程度，a(i,k)表示第i个样本选择第k个样本作为类代表样本的适合程度。迭代更新公式如下：

每次更新后就可以确定当前样本i的代表样本(exemplar)点k，k就是使{a(i,k)+r(i,k)}取得最大值的那个k，如果i=k的话，那么说明样本i就是自己这个cluster的类代表点，如果不是，那么说明i属于k所属的那个cluster。

当然，迭代停止的条件就是所有的样本的所属都不在变化为止，或者迭代了n次都还没有变化（n的值可以自己取）。

说起来还有一种判断点属于属于哪一类的方法，就是找出所有决策矩阵主对角线元素{a(k,k)+r(k,k)}大于0的所有点，这些点全部都是类代表点，之后在决定其余的点属于这里面的一类。这两种方法的结果我没比较过诶，不知是不是一样的。

另外还有一点就是AP聚类算法迭代过程很容易产生震荡，所以一般每次迭代都加上一个阻尼系数λ：

r_new(i,k) = λ*r_old(i,k) + (1-λ)*r(i,k)

a_new(i,k) = λ*a_old(i,k) + (1-λ)*a(i,k)

# coding:utf-8

from sklearn.datasets.samples_generator import make_blobs
import matplotlib.pyplot as plt
import random
import numpy as np

##############################################################################
# Generate sample data
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(n_samples=1000, centers=centers, cluster_std=0.4,
                            random_state=0)

##############################################################################


def euclideanDistance(X, Y):
	"""计算每个点与其他所有点之间的欧几里德距离"""
	X = np.array(X)
	Y = np.array(Y)
	# print X
	return np.sqrt(np.sum((X - Y) ** 2))



def computeSimilarity(datalist):

	num = len(datalist)

	Similarity = []
	for pointX in datalist:
		dists = []
		for pointY in datalist:
			dist = euclideanDistance(pointX, pointY)
			if dist == 0:
				dist = 1.5
			dists.append(dist * -1)
		Similarity.append(dists)

	return Similarity


def affinityPropagation(Similarity, lamda):

	#初始化 吸引矩阵 和 归属 矩阵
	Responsibility = np.zeros_like(Similarity, dtype=np.int)
	Availability = np.zeros_like(Similarity, dtype=np.int)

	num = len(Responsibility)

	count = 0
	while count < 10:
		count += 1
		# update 吸引矩阵

		for Index in range(num):
			# print len(Similarity[Index])
			kSum = [s + a  for s, a in zip(Similarity[Index], Availability[Index])]
			# print kSum
			for Kendex in range(num):
				kfit = delete(kSum, Kendex)
				# print fit
				ResponsibilityNew = Similarity[Index][Kendex] - max(kfit)
				Responsibility[Index][Kendex] = lamda * Responsibility[Index][Kendex] + (1 - lamda) * ResponsibilityNew

		# print "Responsibility", Responsibility


		# update 归属矩阵

		ResponsibilityT = Responsibility.T

		# print ResponsibilityT, Responsibility

		for Index in range(num):

			iSum = [r for r in ResponsibilityT[Index]]

			for Kendex in range(num):

				# print Kendex
				# print "ddddddddddddddddddddddddddd", ResponsibilityT[Kendex]
				#
				ifit = delete(iSum, Kendex)
				ifit = filter(isNonNegative, ifit)   #上面 iSum  已经全部大于0  会导致  delete 下标错误

				#   k == K 对角线的情况
				if Kendex == Index:
					AvailabilityNew  = sum(ifit)
				else:
					result = Responsibility[Kendex][Kendex] + sum(ifit)
					AvailabilityNew = result if result > 0 else 0
				Availability[Kendex][Index] = lamda * Availability[Kendex][Index] + (1 - lamda) * AvailabilityNew
		print "###############################################"
		print Responsibility
		print Availability
		print "###############################################"
	return Responsibility + Availability

def computeCluster(fitable, data):
	clusters = {}
	num = len(fitable)
	for node in range(num):
		fit = list(fitable[node])
		key = fit.index(max(fit))
		if not clusters.has_key(key):
			clusters[key] = []
		point = tuple(data[node])
		clusters[key].append(point)

	return clusters
##############################################################################

"""切片删除 返回新数组"""
def delete(lt, index):
    lt = lt[:index] + lt[index+1:]
    return lt

def isNonNegative(x):
	return x >= 0


##############################################################################

Similarity = computeSimilarity(X)

Similarity = np.array(Similarity)

print "Similarity", Similarity

fitable = affinityPropagation(Similarity, 0.34)

print fitable

clusters = computeCluster(fitable, X)

# print clusters

##############################################################################
clusters = clusters.values()

print len(clusters)

##############################################################################
def plotClusters(clusters, title):
	""" 画图 """
	plt.figure(figsize=(8, 5), dpi=80)
	axes = plt.subplot(111)
	col=[]
	r = lambda: random.randint(0,255)
	for index in range(len(clusters)):
		col.append(('#%02X%02X%02X' % (r(),r(),r())))
	color = 0
	for cluster in clusters:
		cluster = np.array(cluster).T
		axes.scatter(cluster[0],cluster[1], s=20, c = col[color])
		color += 1
	plt.title(title)
	# plt.show()
##############################################################################
plotClusters(clusters, "clusters by affinity propagation")
plt.show()

##############################################################################