import numpy as np
#定义一个欧式距离
def distEclud(vecA,vecB):
return np.sqrt(np.sum(np.power(vecA-vecB,2)))
#np.power(x,y)是计算x的y次方
print('----test_distEclud----')
vecA,vecB=np.array([1,1]),np.array([2,1])
distance = distEclud(vecA,vecB)
print(distance)
接下来设置k个中心点
#随机设置k个中心点
def randCent(dataSet,k):
n=np.shape(dataSet)[1] #获取列值
centroids=np.mat(np.zeros([k,n])) #创建K行n列全为0的矩阵,mat函数为创建矩阵
for j in range(n):
minj = np.min(dataSet[:,j]) #获得j列的最小值
rangej = float(np.max(dataSet[:,j]-minj))#获得输出为k行1列的数据,并使其在数据集范围内
centroids[:,j]=np.mat(minj+rangej*np.random.rand(k,1)) #生成k行1列的服从0~1均匀分布的随机样本值
return centroids
print('----test_randCent----')
dataSet1 = np.array([[1,2],[3,6],[8,10],[12,23],[10,11],[14,18]])
print(dataSet1[1,:])
r=randCent(dataSet1,2)
print(r)
np.random.seed(666)
rand_num=np.random.rand(3,1) #输出为3行1列,随机数在0到1之间
test=np.mat(np.zeros([3,2]))
随后定义KMeans函数
#定义KMeans函数
def KMeans(dataSet,k,distMeans= distEclud,createCent=randCent):
m=np.shape(dataSet)[0] #行数即样本数
clusterAssement = np.mat(np.zeros([m,2])) #行数为m,列数为2的零矩阵,方便后面填入数值
centroids = createCent(dataSet,k) #初始化k个中心点,行数为k,列数为dataSet的列数
clusterChanged = True
while clusterChanged :
clusterChanged=False
for i in range(m):
#minDist是一个数,存放最小的那个欧氏距离
#minIndex是存放第i个样本离哪个中心点更近
minDist = np.inf #先取无穷大
minIndex = -1
for j in range(k):
distJ=distMeans(centroids[j,:],dataSet[i,:])
if distJ < minDist:
minDist = distJ #更新最小距离
minIndex = j
clusterAssement[i,:]=minIndex, minDist**2 #将聚类的类别和最小距离存入该矩阵
if clusterAssement[i,0] != minIndex: #如果中心点没变化,则终止循环
clusterChanged= True
print(centroids) #打印k个中心点的坐标
#更换中心点的位置
for cent in range(k):
#nonzero()返回的是一个二维的数组,其表示非0的元素位置。取这里面的行
ptsInClust = dataSet[np.nonzero(clusterAssement[:,0].A==cent)[0]] #找到属于k类的数据,.A是把数据拉成一列
centroids[cent,:]=np.mean(ptsInClust,axis=0) #得到更新后的中心点
return centroids,clusterAssement
数据验证
#数据验证
dataSet = np.mat([[ 0.90796996 ,5.05836784],[-2.88425582 , 0.01687006],
[-3.3447423 , -1.01730512],[-0.32810867 , 0.48063528]
,[ 1.90508653 , 3.530091 ]
,[-3.00984169 , 2.66771831]
,[-3.38237045 ,-2.9473363 ]
,[ 2.22463036 ,-1.37361589]
,[ 2.54391447 , 3.21299611]
,[-2.46154315 , 2.78737555]
,[-3.38237045 ,-2.9473363 ]
,[ 2.8692781 ,-2.54779119]
,[ 2.6265299 , 3.10868015]
,[-2.46154315 , 2.78737555]
,[-3.38237045 ,-2.9473363 ]
,[ 2.80293085 ,-2.7315146 ]])
center, cluster = KMeans(dataSet, 2)