import numpy as np
import matplotlib.pyplot as plt
#Initialize center函数通过使用numpy库的 zeros函数和random.uniform函数,随机选取 了k个数据做聚类中心,
# 并将结果存放在 了k个数据做聚类中心,并将结果存放在 Numpy的Array对象centers中
def InitCenters(dataSet,k):
numSample,dim=dataSet.shape#获得数组的维度
centers=np.zeros((k,dim))
for i in range(k):
index=int(np.random.uniform(0,numSample))#随机得到k个质心
centers[i,:]=dataSet[index,:]
print(centers)
return centers
#Dist2Centers这个函数用来计算一个数据点到所有 聚类中心的距离,将其存放在dis2cents中返回
def Dist2Centers(sample,centers):
k =centers.shape[0]
dis2cents=np.zeros(k)
for i in range(k):
dis2cents[i]=np.sqrt(np.sum(np.power(sample-centers[i,:],2)))
return dis2cents
def kmeans(dataSet,k,iterNum):
numSamples=dataSet.shape[0]
iterCount=0
#clusterAssignment保存着样本属于哪个数据集
clusterAssignment=np.zeros(numSamples)
clusterChanged=True
#初始化中心点
centers=InitCenters(dataSet,k)
while clusterChanged and iterCount<iterNum:
#遍历每个样本
for i in range(numSamples):
dis2cent=Dist2Centers(dataSet[i,:],centers)
minIndex=np.argmin(dis2cent)
#更新所属的类
if clusterAssignment[i]!=minIndex:
clusterChanged=True
clusterAssignment[i]=minIndex
#更新中心点
for j in range(k):
pointsInCluster =dataSet[np.nonzero(clusterAssignment[:]==j)[0]]
centers[j:] =np.mean(pointsInCluster,axis=0)
print("聚类完成")
return centers,clusterAssignment
def showCluster(dataSet,k,centers,clusterAssignment):
numSamples,dim=dataSet
mark=['or','ob','og','om']
#画出所有样本
for i in range(numSamples):
markIndex =int(clusterAssignment[i])
plt.plot(dataSet[i,0],dataSet[i,1],mark[markIndex])
mark =['Dr','Db','Dg','Dm']
# 画中心点
for i in range(k):
plt.plot(centers[i,0],centers[i,1],mark[i],markersize=17)
plt.show()
def main():
#第一步:加载数据
print("第一步:加载数据")
dataSet=[]
dataSetFile=open('testSet.txt','r')
for line in dataSetFile:
lineArr=line.strip().split('\t')
dataSet.append([float(lineArr[1]),float(lineArr[2])])
#第二步:聚类
print("第二步:聚类")
dataSet=np.mat(dataSet)
k=4 # k为分成几类的参数
centers_result,clusterAssignment_result=kmeans(dataSet,k,100)
#第三步:展示结果
print("第三步:展示结果")
showCluster(dataSet,k,centers_result,clusterAssignment_result)
main()
问题定义 :聚类问题是数据挖掘的基本问题,它的本质是将n 个数据对象划分为k个聚类,以便使得所获得的聚 类满足以下条件:同一聚类中的数据对象相似度较高;不同聚类中的对象相似度较小。 K-means算法就是解决这类问题的经典聚类算法,它的基本思想是以空间中k个点为中心,进行聚类 ,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果
K-means算法步骤:
1.从n个数据对象任意选择k 个对象作为初始聚类中心; 并设定最大迭代次数
2.计算每个对象与k个中心点的距离并根据最小距离对相应对象进行划分,即把对象划分到与他们最近的中心所代表的类别中去;
3.对于每一个中心点,遍历他们所包含的对象,计算这些对象所有维度的和的均值,获得新的中心点
4.如果聚类中心与上次迭代之前相比,有所改变,或者算法迭代次数小于给定的最大迭代次数,则继续执行第2 、3两步,否则,程序结束返回聚类结果。
Python3.6实现如下: