# 无监督学习
# 聚类:将相似对象归到同一簇中
'''
区别knn(k-nearest neiborhood) kmeans,前者是有监督学习(有标签),后者属于无监督学习
关于nonzero补充:a=[1,0,1] 返回(array([0,2]),)nonzero(a)[0]返回 array([0, 2])
算法流程
创建k个点作为起始质心
对数据集中每个点
对每个质心
计算质心到数据点距离
将数据分配到最近的簇
对每个簇,计算所有点均值作为质心
'''
import numpy as np
import matplotlib.pyplot as plt
def loadDataSet(filename):
dataMat = []
fr = open(filename)
for line in fr.readlines():
curLine = line.strip().split('\t')
fltLine = list(map(float, curLine))
dataMat.append(fltLine)
return dataMat
def distEclud(vecA, vecB):
return np.sqrt(np.sum(np.power(vecA-vecB, 2)))
# 初始化质心
# 注意float()只能对单个数强制转换,对向量要用list(map(float, a)) python3中map返回object,要转为list
def randCent(dataSet, k):
n = np.shape(dataSet)[1]
# 一行是一个簇,每列对应一个特征分量
centroids = np.mat(np.zeros((k, n)))
for j in range(n):
minj = np.min(dataSet[:, j])
rangeJ = float(np.max(dataSet[:, j]) - minj)
centroids[:, j] = minj+rangeJ*np.random.rand(k, 1)
return centroids
# clusterAssment 簇分配矩阵(记录n个向量分配到那个簇中) 第一列记录簇索引值 第二列记录误差(当前点到质心的距离平方)
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
m = np.shape(dataSet)[0]
clusterAssment = np.mat(np.zeros((m, 2)))
centroids = createCent(dataSet, k)
clusterChanged = True
while clusterChanged:
clusterChanged = False
for i in range(m):
# minIndex记录到当前节点最近簇的下标
minDist = np.inf
minIndex = -1
for j in range(k):
distJi = distMeas(centroids[j, :], dataSet[i, :])
if distJi < minDist:
minDist = distJi
minIndex = j
# 第一列是簇索引值 不等后代表发生变化
if clusterAssment[i, 0] != minIndex:
clusterChanged = True
clusterAssment[i, :] = minIndex, minDist**2
# 更新质心位置,对之前标记为簇下标的点筛选出来并计算均值作为新的簇
# 对array或者mat类型支持 a[[0,1]]形式,代表取矩阵a的第一行和第二行构成新矩阵
for cent in range(k):
ptsInClust = dataSet[np.nonzero(clusterAssment[:, 0].A==cent)[0]]
centroids[cent, :] = np.mean(ptsInClust, axis=0)
return centroids, clusterAssment
# k是一个超参数,而且kmeans可能收敛到局部最小值
# 评价指标SSE 将最大SSE簇分开,同时为了保证总数不变,将最近的质心合并(计算所有质心之间距离),或者使得合并后SSE增幅最小的质心
'''
二分k均值:初始所有点为一个簇,每次选择一个进行划分
将所有点看做一个簇
当簇数目< k时
对于每一个簇
计算总误差
在给定簇上进行kmeans(k=2)
计算该簇一分为二后总误差
选择误差最小的簇进行划分
'''
def biKmeans(dataSet, k, distMeans=distEclud):
m = np.shape(dataMat)[0]
clusterAssment = np.mat(np.zeros((m, 2)))
centroid0 = np.mean(dataSet, axis=0).tolist()[0]
centList = [centroid0]
# 初始簇为数据质心,并计算簇分配SE项(Square Error)
for j in range(m):
clusterAssment[j, 1] = distMeans(np.mat(centroid0), dataSet[j, :])**2
while(len(centList)<k):
lowestSSE = np.inf
# 每次选择一个簇下的数据作为一个子集进行kmeans(k=2)聚类
# 在python中for循环不引入作用域,在函数内部,for循环外仍能调用。遵循LEGB原则(local, enclosed, global, build_in)
for i in range(len(centList)):
ptsInCurCluster = dataSet[np.nonzero(clusterAssment[:, 0].A == i)[0], :]
centroidMat, splitClusAss = kMeans(ptsInCurCluster, 2, distMeans)
SseSplit = np.sum(splitClusAss[:, 1])
SseNoSplit = np.sum(clusterAssment[np.nonzero(clusterAssment[:, 0].A != i)[0], 1])
if(SseSplit + SseNoSplit) < lowestSSE:
bestCentSplit = i
bestNewCents = centroidMat
bestClustAss = splitClusAss.copy()
lowestSSE = SseSplit + SseNoSplit
# 更新子集的簇分配记录 eg:共m个簇,对第i个簇进行划分后,一个仍未i,另一个为第m+1个簇
bestClustAss[np.nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(centList)
bestClustAss[np.nonzero(bestClustAss[:, 0].A == 0)[0], 0] = bestCentSplit
# 更新簇
centList[bestCentSplit] = bestNewCents[0, :]
centList.append(bestNewCents[1, :])
# 更新整个数据集的簇分配结果(相当于把一个小矩阵赋值给大矩阵里索引出来的小矩阵)
clusterAssment[np.nonzero(clusterAssment[:, 0].A == bestCentSplit)[0], :] = bestClustAss
return np.mat(centList), clusterAssment
def plotdata(dataMat, clusterAssment, centList):
plt.figure()
color = ['r', 'g', 'b', 'y', 'm', 'c']
for j in range(np.shape(clusterAssment)[0]):
col = color[int(clusterAssment[j, 0])]
print(col)
plt.plot(dataMat[0], dataMat[1])
for i in range(np.shape(centList)[0]):
plt.plot(centList[0], centList[1], '+')
plt.show()
dataMat = np.mat(loadDataSet('testSet.txt'))
myCentroids, clustAss = kMeans(dataMat, 4)
plotdata(dataMat, clustAss, myCentroids)