机器学习第六周-K均值聚类

聚类和分类的区别

聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生 的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类(unsupervised classification)

K-均值聚类算法

K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心 (centroid),即簇中所有点的中心来描述。 K-均值算法的工作流程是这样的。首先,随机确定k个初始点作为质心。然后将数据集中的 每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的 簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。

算法伪代码

创建k个点作为起始质心(经常是随机选择)
当任意一个点的簇分配结果发生改变时
	对数据集中的每个数据点
		对每个质心 
			计算质心与数据点之间的距离
		将数据点分配到距其最近的簇
	对每一个簇,计算簇中所有点的均值并将均值作为质心 

一般流程

(1) 收集数据:使用任意方法。  
(2) 准备数据:需要数值型数据来计算距离,也可以将标称型数据映射为二值型数据再用              于距离计算。  (3) 分析数据:使用任意方法。 
(4) 训练算法:不适用于无监督学习,即无监督学习没有训练过程。 
(5) 测试算法:应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和(后面               会介绍)来评价算法的结果。 
(6) 使用算法:可以用于所希望的任何应用。通常情况下,簇质心可以代表整个簇的数据               来做出决策。  
 

Python代码

加载文本函数

def loadDataSet(fileName):    
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine))    # 转换为float型
        dataMat.append(fltLine)     # 添加到数据集
    return dataMat

计算两个向量欧几里得距离

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) 

在整个数据集范围之内,构建k个随机质心集合

def randCent(dataSet, k):
    n = shape(dataSet)[1] # 特征个数
    centroids = mat(zeros((k,n))) # k*n质心矩阵
    for j in range(n): # 创建随机簇质心,并且在每一维的边界内
        minJ = min(dataSet[:,j])    # 找每一维的最小值
        rangeJ = float(max(dataSet[:,j]) - minJ)    # 最大值-最小值=范围
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))    # 随机生成一列在范围内的随机数    random.rand 是numpy的函数随机生成k行1列的array
    return centroids

k-mean聚类算法

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]    # 样本个数
    clusterAssment = mat(zeros((m, 2)))    #创建一个与 dataSet 行数一样,但是有两列的矩阵,用来保存簇分配结果 
    centroids = createCent(dataSet, k)   #k个质心
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):    # 循环每一个数据点并分配到最近的质心中去
            minDist = inf; minIndex = -1
            for j in range(k):        #找到距离最小的值
                distJI = distMeas(centroids[j,:],dataSet[i,:])   
                if distJI < minDist:   
                    minDist = distJI; minIndex = j    #更新下角标和距离
            if clusterAssment[i, 0] != minIndex:   
                clusterChanged = True    # 簇改变
                clusterAssment[i, :] = minIndex,minDist**2   
        print centroids
        for cent in range(k):   #更新族值,取其平均值
            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A==cent)[0]] 
            centroids[cent,:] = mean(ptsInClust, axis=0) 
    return centroids, clusterAssment
结果,第一个为list是初始化的执行,之后是不断迭代求均值的质心,最后一个是迭代完成,数据点的簇分配结果不再改变位置,那么就得到了结果
[[-2.26011863  4.87140456]
 [-2.77326462  4.92766064]
 [ 1.17591447  1.49748964]
 [-5.30777337 -2.54421764]]
[[-1.94060073  3.03355673]
 [-3.48664243  2.77252571]
 [ 2.50265374  0.25033376]
 [-3.38237045 -2.9473363 ]]
[[-1.1749848   3.1969556 ]
 [-3.3856885   2.52409988]
 [ 2.9336716   0.07055631]
 [-3.01169468 -3.01238673]]
[[-0.42605093  3.37647757]
 [-3.17006745  2.60393509]
 [ 2.99405094 -0.1605263 ]
 [-3.01169468 -3.01238673]]
[[ 1.18727212  3.58239347]
 [-2.84017553  2.6309902 ]
 [ 3.09181665 -1.14418992]
 [-3.01169468 -3.01238673]]
[[ 2.3772111   3.2195035 ]
 [-2.54951105  2.75812458]
 [ 2.8692781  -2.54779119]
 [-3.38237045 -2.9473363 ]]
[[ 2.6265299   3.10868015]
 [-2.46154315  2.78737555]
 [ 2.80293085 -2.7315146 ]
 [-3.38237045 -2.9473363 ]]
centroids= [[ 2.6265299   3.10868015]
 [-2.46154315  2.78737555]
 [ 2.80293085 -2.7315146 ]
 [-3.38237045 -2.9473363 ]]

使用后处理来提高聚类性能

一种用于度量聚类效果的指标是SSE(Sum of Squared Error,误差平方和),对应上面程序中clusterAssment矩阵的第一列之和。SSE值越小表示数据点越接近于它们的质心,聚类效果也 越好。因为对误差取了平方,因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是 增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量。

你可以对生成的簇进行后处理,一种方法是将具有最大 SSE值的簇划分成两个簇。具体实现时可以将最大簇包含的点过滤出来并在这些点上运行K-均值。

为了保持簇总数不变,可以将某两个簇进行合并。有两种可以量化的办法:合并最近的质心,或者合并两个使得SSE增幅最小的质心。第一种 思路通过计算所有质心之间的距离,然后合并距离最近的两个点来实现。第二种方法需要合并两 个簇然后计算总SSE值。

二分K-均值算法

该算法主要是为了克服k-均值算法收敛于局部最小值的问题。

伪代码

将所有点看成一个簇 
当簇数目小于k时
	对于每一个簇 
		计算总误差 
		在给定的簇上面进行K-均值聚类(k=2) 
		计算将该簇一分为二之后的总误差 
	选择使得误差最小的那个簇进行划分操作

python实现

def biKMeans(dataMat, k, distMeas=distEclud):
    m = shape(dataMat)[0]
    clusterAssment = mat(zeros((m, 2)))  
    centroid0 = mean(dataMat, axis=0).tolist()[0] 
    centList = [centroid0]
    for j in range(m):  
        clusterAssment[j, 1] = distMeas(mat(centroid0), dataMat[j, :])**2
    while (len(centList) < k): 
        lowestSSE = inf
        for i in range(len(centList)): 
            ptsInCurrCluster = dataMat[nonzero(
                clusterAssment[:, 0].A == i)[0], :] 
            centroidMat, splitClustAss = kMeans(
                ptsInCurrCluster, 2, distMeas) 
            sseSplit = sum(splitClustAss[:, 1]) 
            sseNotSplit = sum(
                clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0],
                               1]) 
            print("sseSplit, and notSplit: ", sseSplit, sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
            
        bestClustAss[nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(
            centList) 
        bestClustAss[nonzero(bestClustAss[:, 0].A == 0)[0],
                     0] = bestCentToSplit  
        print('the bestCentToSplit is: ', bestCentToSplit)
        print('the len of bestClustAss is: ', len(bestClustAss))
        
        centList[bestCentToSplit] = bestNewCents[0, :].tolist()[
            0] 
        centList.append(
            bestNewCents[1, :].tolist()[0])  
        clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSplit)[
            0], :] = bestClustAss 
    return mat(centList), clusterAssment

小结

在本章中,学习到了聚类算法k均值聚类算法,以及基于k均值聚类算法的优化后二分-k均值算法,可以有效避免k均值算法中可能陷入局部最优值的问题。同时本章也学习到了很多numpy的新用法。继续努力,下一章在数据集中查找关联规则的Apriori算法。

参考文献

机器学习实战 Machine learning in action 美Peter Harrington 著 人民邮电出版社

APACHECN学习笔记https://github.com/apachecn/AiLearning/blob/master/docs/ml/10.k-means%E8%81%9A%E7%B1%BB.md

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值