介绍K均值算法:
优点:易于实现
缺点:可能收敛于局部最小值,在大规模数据收敛慢
算法思想较为简单如下所示:
选择K个点作为初始质心
repeat
将每个点指派到最近的质心
形成K个簇
重新计算每个簇的质心
until簇不发生变化或达到最大迭代次数
这里的重新计算每个簇的质心,如何计算的是根据目标函数得来的,因此在开始时我们要考虑距离度量和目标函数。
考虑欧几里得距离的数据,使用误差平方和(Sum of the Squared Error,SSE)作为聚类的目标函数,两次运行K均值产生的两个不同的簇集,我们更喜欢SSE最小的那个。
k表示k个聚类中心,ci表示第几个中心,dist表示的是欧几里得距离。
这里有一个问题就是为什么,我们更新质心是让所有的点的平均值,这里就是SSE所决定的。
Python进行实现 :
1 # dataSet样本点,k 簇的个数 2 # disMeas距离量度,默认为欧几里得距离 3 # createCent,初始点的选取 4 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent): 5 m = shape(dataSet)[0] #样本数 6 clusterAssment = mat(zeros((m,2))) #m*2的矩阵 7 centroids = createCent(dataSet, k) #初始化k个中心 8 clusterChanged = True 9 while clusterChanged: #当聚类不再变化 10 clusterChanged = False 11 for i in range(m): 12 minDist = inf; minIndex = -1 13 for j in range(k): #找到最近的质心 14 distJI = distMeas(centroids[j,:],dataSet[i,:]) 15 if distJI < minDist: 16 minDist = distJI; minIndex = j 17 if clusterAssment[i,0] != minIndex: clusterChanged = True 18 # 第1列为所属质心,第2列为距离 19 clusterAssment[i,:] = minIndex,minDist**2 20 print centroids 21 22 # 更改质心位置
# 循环每一个质心,找到属于当前质心的所有点,然后根据这些点去更新当前的质心。
# nonzero()返回的是一个二维的数组,其表示非0的元素位置。 23 for cent in range(k): 24 ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]] 25 centroids[cent,:] = mean(ptsInClust, axis=0) 26 return centroids, clusterAssment
ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]
因此首先先比较clusterAssment[:,0].A==cent的真假,如果为真则记录了他所在的行,因此在用切片进行取值。
辅助的函数:
1 def loadDataSet(fileName): #general function to parse tab -delimited floats 2 dataMat = [] #assume last column is target value 3 fr = open(fileName) 4 for line in fr.readlines(): 5 curLine = line.strip().split('\t') 6 fltLine = map(float,curLine) #map all elements to float() 7 dataMat.append(fltLine) 8 return dataMat 9 10 def distEclud(vecA, vecB): 11 return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB) 12 13 def randCent(dataSet, k): 14 n = shape(dataSet)[1] 15 centroids = mat(zeros((k,n)))#create centroid mat 16 for j in range(n):#create random cluster centers, within bounds of each dimension 17 minJ = min(dataSet[:,j]) 18 rangeJ = float(max(dataSet[:,j]) - minJ) 19 centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1)) 20 return centroids
绘图的程序如下:
1 def draw(data,center): 2 length=len(center) 3 fig=plt.figure 4 # 绘制原始数据的散点图 5 plt.scatter(data[:,0],data[:,1],s=25,alpha=0.4) 6 # 绘制簇的质心点 7 for i in range(length): 8 plt.annotate('center',xy=(center[i,0],center[i,1]),xytext=\ 9 (center[i,0]+1,center[i,1]+1),arrowprops=dict(facecolor='red')) 10 plt.show()
K-Means算法的缺陷
k均值算法非常简单且使用广泛,但是其有主要的两个缺陷:
1. K值需要预先给定,属于预先知识,很多情况下K值的估计是非常困难的,对于像计算全部微信用户的交往圈这样的场景就完全的没办法用K-Means进行。
对于可以确定K值不会太大但不明确精确的K值的场景,可以进行迭代运算,然后找出Cost Function最小时所对应的K值,这个值往往能较好的描述有多少个簇类。
2. K-Means算法对初始选取的聚类中心点是敏感的,不同的随机种子点得到的聚类结果完全不同
3. K均值算法并不是很所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇,银冠指定足够大的簇的个数是他通常可以发现纯子簇。
4. 对离群点的数据进行聚类时,K均值也有问题,这种情况下,离群点检测和删除有很大的帮助。
下面对初始质心的选择进行讨论:
拙劣的初始质心
当初始质心是随机的进行初始化的时候,K均值的每次运行将会产生不同的SSE,而且随机的选择初始质心结果可能很糟糕,
可能只能得到局部的最优解,而无法得到全局的最优解。如下图所示:
可以看到程序迭代了4次终止,其得到了局部的最优解,显然我们可以看到其不是全局最优的,我们仍然可以找到一个更小的SSE的聚类。
随机初始化的局限
你可能会想到:多次运行,每次使用一组不同的随机初始质心,然后选择一个具有最小的SSE的簇集。
该策略非常的简单,但是效果可能不是很好,这取决于数据集合寻找的簇的个数。
K-Means优化算法
为了克服K-Means算法收敛于局部最小值的问题,提出了一种二分K-均值(bisecting K-means)
bisecting K-means
算法的伪代码如下:
将所有的点看成是一个簇
当簇小于数目k时
对于每一个簇
计算总误差
在给定的簇上进行K-均值聚类,k值为
2
计算将该簇划分成两个簇后总误差
选择是的误差最小的那个簇进行划分
完整的Python代码:
1 def biKmeans(dataSet, k, distMeas=distEclud): 2 m = shape(dataSet)[0] 3 # 这里第一列为类别,第二列为SSE 4 clusterAssment = mat(zeros((m,2))) 5 # 看成一个簇是的质心 6 centroid0 = mean(dataSet, axis=0).tolist()[0] 7 centList =[centroid0] #create a list with one centroid 8 for j in range(m): #计算只有一个簇是的误差 9 clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2 10 11 # 核心代码 12 while (len(centList) < k): 13 lowestSSE = inf 14 # 对于每一个质心,尝试的进行划分 15 for i in range(len(centList)): 16 # 得到属于该质心的数据 17 ptsInCurrCluster =\ dataSet[nonzero(clusterAssment[:,0].A==i)[0],:] 18 # 对该质心划分成两类 19 centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas) 20 # 计算该簇划分后的SSE 21 sseSplit = sum(splitClustAss[:,1]) 22 # 没有参与划分的簇的SSE 23 sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1]) 24 print "sseSplit, and notSplit: ",sseSplit,sseNotSplit 25 # 寻找最小的SSE进行划分 26 # 即对哪一个簇进行划分后SSE最小 27 if (sseSplit + sseNotSplit) < lowestSSE: 28 bestCentToSplit = i 29 bestNewCents = centroidMat 30 bestClustAss = splitClustAss.copy() 31 lowestSSE = sseSplit + sseNotSplit 32 33 # 较难理解的部分 34 bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever 35 bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit 36 print 'the bestCentToSplit is: ',bestCentToSplit 37 print 'the len of bestClustAss is: ', len(bestClustAss) 38 centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids 39 centList.append(bestNewCents[1,:].tolist()[0]) 40 clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE 41 return mat(centList), clusterAssment
bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit 这里是更改其所属的类别,其中bestClustAss = splitClustAss.copy()是进行k-means后所返回的矩阵,
其中第一列为类别,第二列为SSE值,因为当k=2是k-means返回的是类别0,1两类,
因此这里讲类别为1的更改为其质心的长度,而类别为0的返回的是该簇原先的类别。
例如:目前划分成了0,1两个簇,而要求划分成3个簇,则在算法进行时,假设对1进行划分得到的SSE最小,
则将1划分成了2个簇,其返回值为0,1两个簇,将返回为1的簇改成2,返回为0的簇改成1,因此现在就有0,1,2三个簇了。
centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids centList.append(bestNewCents[1,:].tolist()[0])
clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE 其中bestNewCents是k-means的返回簇中心的值,其有两个值,分别是第一个簇,和第二个簇的坐标(k=2),
这里将第一个坐标赋值给 centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0],
将另一个坐标添加到centList中 centList.append(bestNewCents[1,:].tolist()[0])
from numpy import * >>> import kMeans >>> dat = mat(kMeans.loadDataSet('testSet2.txt')) >>> cent,assment=kMeans.biKmeans(dat,3) sseSplit, and notSplit: 570.722757425 0.0 the bestCentToSplit is: 0 the len of bestClustAss is: 60 sseSplit, and notSplit: 68.6865481262 38.0629506357 sseSplit, and notSplit: 22.9717718963 532.659806789 the bestCentToSplit is: 0 the len of bestClustAss is: 40 可以看到进行了两次的划分,第一次最好的划分是在0簇,第二次划分是在1簇。
本文来于: