吴恩达机器学习笔记（七） —— K-means算法

最新推荐文章于 2024-04-12 22:52:38 发布

alince20008

最新推荐文章于 2024-04-12 22:52:38 发布

阅读量286

点赞数

文章标签：人工智能数据结构与算法 python

原文链接：http://www.cnblogs.com/DOLFAMINGO/p/9360120.html

版权

主要内容：

一.K-means算法简介

二.算法过程

三.随机初始化

四.二分K-means

四.K的选择

一.K-means算法简介

1.K-means算法是一种无监督学习算法。所谓无监督式学习，就是输入样本中只有x，没有y，即只有特征，而没有标签，通过这些特征对数据进行整合等操作。而更细化一点地说，K-means算法属于聚类算法。所谓聚类算法，就是根据特征上的相似性，把数据聚集在一起，或者说分成几类。

2.K-means算法作为聚类算法的一种，其工作自然也是“将数据分成几类”，其基本思路是：

1) 首先选择好将数据分成k类，然后随机初始化k个点作为中心点。

2) 对于每一个数据点，选取与之距离最近的中心点作为自己的类别。

3) 当所有数据点都归类完毕后，调整中心点：把中心点重新设置为该类别中所有数据点的中心位置，每一轴都设置为平均值。（所以称为means）

4) 重复以上2)~3)步骤直至数据点的类别不再发生变化。

3.K-means算法从感性上去理解，就是把一堆靠得近的点归到同一个类别中。

二.算法过程

1.一些变量的约定：μ(i)表示第i个中心点，c(i)表示第i个数据点归到哪个中心点。

2.K-means算法的本质就是：移动中心点，使其渐渐地靠近数据的“中心”，即最小化数据点与中心点的距离。即：

3.算法流程：

4.Python代码如下：

 1 # coding:utf-8
 2 
 3 from numpy import *
 4 
 5 def distEclud(vecA, vecB):      #计算欧式距离
 6     return sqrt(sum(power(vecA - vecB, 2)))  # la.norm(vecA-vecB)
 7 
 8 def randCent(dataSet, k):         #  初始化k个随机簇心
 9     n = shape(dataSet)[1]       #特征个数
10     centroids = mat(zeros((k, n)))  # 簇心矩阵k*n
11     for j in range(n):  #特征逐个逐个地分配给这k个簇心。每个特征的取值需要设置在数据集的范围内
12         minJ = min(dataSet[:, j])   #数据集中该特征的最小值
13         rangeJ = float(max(dataSet[:, j]) - minJ)   #数据集中该特征的跨度
14         centroids[:, j] = mat(minJ + rangeJ * random.rand(k, 1))    #为k个簇心分配第j个特征，范围需限定在数据集内。
15     return centroids        #返回k个簇心
16 
17 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
18     m = shape(dataSet)[0]    #数据个数
19     clusterAssment = mat(zeros((m, 2)))  # 记录每个数据点被分配到的簇，以及到簇心的距离
20     centroids = createCent(dataSet, k)      #  初始化k个随机簇心
21     clusterChanged = True       #  记录一轮中是否有数据点的归属出现变化，如果没有则算法结束
22     while clusterChanged:
23         clusterChanged = False
24         for i in range(m):  # 枚举每个数据点，重新分配其簇归属
25             minDist = inf; minIndex = -1    #记录最近簇心及其距离
26             for j in range(k):      #枚举每个簇心
27                 distJI = distMeas(centroids[j, :], dataSet[i, :])   #计算数据点与簇心的距离
28                 if distJI < minDist:        #更新最近簇心
29                     minDist = distJI;  minIndex = j
30             if clusterAssment[i, 0] != minIndex: clusterChanged = True  #更新“变化”记录
31             clusterAssment[i, :] = minIndex, minDist ** 2     #更新数据点的簇归属
32         print centroids
33         for cent in range(k):  #枚举每个簇心，更新其位置
34             ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]  # 得到该簇所有的数据点
35             centroids[cent, :] = mean(ptsInClust, axis=0)  # 将数据点的均值作为簇心的位置
36     return centroids, clusterAssment    # 返回簇心及每个数据点的簇归属

三.随机初始化

由于初始化的中心点对于最后的分类结果影响很大，因而很容易出现：当初始化的中心点不同时，其结果可能千差万别：

因此，为了分类结果更加合理，我们可以多次初始化中心点，即多次运行K-means算法，然后取其中J(c1,c2……，μ1,μ2……)最小的分类结果。

四.二分K-means

1.为了克服K-means算法收敛域局部最小值的问题（缘因对初始簇心的位置敏感），二分k-means出现了。该算法首先将所有点归于一个簇，然后将其一分为二。之后选择其中一个簇继续一分为二。选择的依据就是：该簇的划分是否可以最大程度降低SSE（误差平方和）的值。上述基于SSE的划分过程不断重复，直至簇数达到k为止。

2.伪代码如下：

3.Python代码如下：

 1 '''二分K均值'''
 2 def biKmeans(dataSet, k, distMeas=distEclud):
 3     m = shape(dataSet)[0]
 4     centroid0 = mean(dataSet, axis=0).tolist()[0]   #创建初始簇心，标号为0
 5     centList = [centroid0]  # 创建簇心列表
 6     clusterAssment = mat(zeros((m, 2)))     #初始化所有数据点的簇归属(为0)
 7     for j in range(m):  # 计算所有数据点与簇心0的距离
 8         clusterAssment[j, 1] = distMeas(mat(centroid0), dataSet[j, :]) ** 2
 9     ''''''''''''
10     while (len(centList) < k):      #分裂k-1次，形成k个簇
11         lowestSSE = inf     #初始化最小sse为无限大
12         for i in range(len(centList)):      #枚举已有的簇，尝试将其一分为二
13             ptsInCurrCluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0],:]  #将该簇的数据点提取出来
14             centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)  #利用普通k均值将其一分为二
15             sseSplit = sum(splitClustAss[:, 1])  # 计算划分后该簇的SSE
16             sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1])   #计算该簇之外的数据点的SSE
17             print "sseSplit, and notSplit: ", sseSplit, sseNotSplit
18             if (sseSplit + sseNotSplit) < lowestSSE:    #更新最小总SSE下的划分簇及相关信息
19                 bestCentToSplit = i         #被划分的簇
20                 bestNewCents = centroidMat      #划分后的两个簇心
21                 bestClustAss = splitClustAss.copy()         #划分后簇内数据点的归属及到新簇心的距离
22                 lowestSSE = sseSplit + sseNotSplit      #更新最小总SSE
23         ''''''''''''
24         print 'the bestCentToSplit is: ', bestCentToSplit
25         print 'the len of bestClustAss is: ', len(bestClustAss)
26         centList[bestCentToSplit] = bestNewCents[0, :].tolist()[0]  # 一个新簇心的标号为旧簇心的标号，所以将其取代就簇心的位置
27         centList.append(bestNewCents[1, :].tolist()[0])     # 另一个新簇心加入到簇心列表的尾部，标号重新起
28         bestClustAss[nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(centList)      #更新旧簇内数据点的标号
29         bestClustAss[nonzero(bestClustAss[:, 0].A == 0)[0], 0] = bestCentToSplit    #同上
30         clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSplit)[0],:] = bestClustAss  # 将更新的簇归属统计到总数据上
31     return mat(centList), clusterAssment