聚类之K-均值聚类

最新推荐文章于 2023-05-17 18:53:43 发布

jxc_

最新推荐文章于 2023-05-17 18:53:43 发布

阅读量620

点赞数 1

分类专栏：机器学习笔记文章标签：聚类

本文链接：https://blog.csdn.net/weixin_42761645/article/details/105169286

版权

机器学习笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

此文为《机器学习实战》《机器学习》学习笔记

一、聚类

在无监督学习中，学习的样本在训练之前无类别标记。聚类方法作为重要的无监督学习方法，学习的过程就是要将这些样本根据某特性的相似性来进行划分，相似性大到某一程度的数据样本将被放在一类中，得到一个个通常不相交的子集，这些子集也被称为簇，也就是说聚类的结果就是得到一些簇，但是簇内的数据的相似性是内在的，我们并不知道，簇识别就是去得知这些簇到底是什么。

二、K-均值聚类

此种聚类方法适用于数值型数据。该方法中可以发现 k 个不同的簇，并且每个簇中的中心取簇中所含值的均值，因此被称为K-均值聚类，k值由用户指定。在上段所说我们需要将在某方面相似的数据归到同一簇，相似的概念取决于所采用的相似度计算方法，比如欧氏距离。

以下例子实现了简单的K-均值聚类算法

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) #计算欧式距离

def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#创建质心向量
    for j in range(n):#此向量包含k组质心，每组中包含一个样本中的各个数据的质心
        minJ = min(dataSet[:,j]) 
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids
    
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))  #这个向量用于标记每个样本的簇信息
    centroids = createCent(dataSet, k)
    clusterChanged = True   #用于标记簇是否变化
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#对每一个数据点进行计算
            minDist = inf; minIndex = -1
            for j in range(k):#将数据见与每一个质心比较
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2 #保存所属簇和与质心的距离平方值
        print centroids
        for cent in range(k): #重新计算簇的质心
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]
            centroids[cent,:] = mean(ptsInClust, axis=0) 
    return centroids, clusterAssment

三、二分K-均值算法

以上k-均值算法存在问题，其一是用户自定义的 k 值不知道是否合适；其二该算法收敛到了局部最小值，不能收敛到全局最小值。

二分K-均值算法首先将所有数据作为一个簇，然后一分为二，再选择其中之一继续一分为二。

SSE是误差平方和，在算法中，我们使用 clusterAssment 来记录数据的簇信息，包含两部分，第二部分为该数据与质心的距离平方值。

def biKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] #创建一个初始簇
    for j in range(m):#
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])#比较当下最小SSE
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print "sseSplit, and notSplit: ",sseSplit,sseNotSplit
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList)
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print 'the bestCentToSplit is: ',bestCentToSplit
        print 'the len of bestClustAss is: ', len(bestClustAss)
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#替换质心
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss
    return mat(centList), clusterAssment

jxc_

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类之K-均值聚类

此文为《机器学习实战》《机器学习》学习笔记一、聚类在无监督学习中，学习的样本在训练之前无类别标记。聚类方法作为重要的无监督学习方法，学习的过程就是要将这些样本根据某特性的相似性来进行划分，相似性大到某一程度的数据样本将被放在一类中，得到一个个通常不相交的子集，这些子集也被称为簇，也就是说聚类的结果就是得到一些簇，但是簇内的数据的相似性是内在的，我们并不知道，簇识别就是去得知这些簇到底是什么...
复制链接

扫一扫