kmeans python代码_K-Means K均值聚类 python代码实现

最新推荐文章于 2024-04-29 18:16:07 发布

weixin_39919165

最新推荐文章于 2024-04-29 18:16:07 发布

阅读量198

点赞数

文章标签： kmeans python代码

1. 初始化类中心，从样本中随机选取K个点作为初始的聚类中心点

def kMeansInitCentroids(X,K):

m = X.shape[0]

m_arr = np.arange(0,m) # 生成0-m-1

centroids = np.zeros((K,X.shape[1]))

np.random.shuffle(m_arr) # 打乱m_arr顺序

rand_indices = m_arr[:K] # 取前K个

centroids = X[rand_indices,:]

return centroids

2. 找出每个样本离哪一个类中心的距离最近，并返回

def findClosestCentroids(x,inital_centroids):

m = x.shape[0] #样本的个数

k = inital_centroids.shape[0] #类别的数目

dis = np.zeros((m,k)) # 存储每个点到k个类的距离

idx = np.zeros((m,1)) # 要返回的每条数据属于哪个类别

"""计算每个点到每个类的中心的距离"""

for i in range(m):

for j in range(k):

dis[i,j] = np.dot((x[i,:] - inital_centroids[j,:]).reshape(1,-1),

(x[i,:] - inital_centroids[j,:]).reshape(-1,1))

'''返回dis每一行的最小值对应的列号，即为对应的类别

- np.min(dis, axis=1) 返回每一行的最小值

- np.where(dis == np.min(dis, axis=1).reshape(-1,1)) 返回对应最小值的坐标

- 注意：可能最小值对应的坐标有多个，where都会找出来，所以返回时返回前m个需要的即可（因为对于多个最小值，

属于哪个类别都可以）

'''

dummy,idx = np.where(dis == np.min(dis,axis=1).reshape(-1,1))

return idx[0:dis.shape[0]]

3. 更新类中心

def computerCentroids(x,idx,k):

n = x.shape[1] #每个样本的维度

centroids = np.zeros((k,n)) #定义每个中心点的形状，其中维度和每个样本的维度一样

for i in range(k):

# 索引要是一维的, axis=0为每一列，idx==i一次找出属于哪一类的，然后计算均值

centroids[i,:] = np.mean(x[np.ravel(idx==i),:],axis=0).reshape(1,-1)

return centroids

4. K-Means算法实现

def runKMeans(x,initial_centroids,max_iters,plot_process):

m,n = x.shape #样本的个数和维度

k = initial_centroids.shape[0] #聚类的类数

centroids = initial_centroids #记录当前类别的中心

previous_centroids = centroids #记录上一次类别的中心

idx = np.zeros((m,1)) #每条数据属于哪个类

for i in range(max_iters):

print("迭代计算次数：%d"%(i+1))

idx = findClosestCentroids(x,centroids)

if plot_process: # 如果绘制图像

plt = plotProcessKMeans(X,centroids,previous_centroids,idx) # 画聚类中心的移动过程

previous_centroids = centroids # 重置

plt.show()

centroids = computerCentroids(x,idx,k) #重新计算类中心

return centroids,idx #返回聚类中心和数据属于哪个类别

5. 绘制聚类中心的移动过程

def plotProcessKMeans(X,centroids,previous_centroids,idx):

for i in range(len(idx)):

if idx[i] == 0:

plt.scatter(X[i,0], X[i,1],c="r") # 原数据的散点图二维形式

elif idx[i] == 1:

plt.scatter(X[i,0],X[i,1],c="b")

else:

plt.scatter(X[i,0],X[i,1],c="g")

plt.plot(previous_centroids[:,0],previous_centroids[:,1],'rx',markersize=10,linewidth=5.0) # 上一次聚类中心

plt.plot(centroids[:,0],centroids[:,1],'rx',markersize=10,linewidth=5.0) # 当前聚类中心

for j in range(centroids.shape[0]): # 遍历每个类，画类中心的移动直线

p1 = centroids[j,:]

p2 = previous_centroids[j,:]

plt.plot([p1[0],p2[0]],[p1[1],p2[1]],"->",linewidth=2.0)

return plt

6. 主程序实现

if __name__ == "__main__":

print("聚类过程展示....\n")

data = spio.loadmat("./data/data.mat")

X = data['X']

K = 3

initial_centroids = kMeansInitCentroids(X,K)

max_iters = 10

runKMeans(X,initial_centroids,max_iters,True)

7. 结果

聚类过程展示....

迭代计算次数：1

迭代计算次数：2

迭代计算次数：3

迭代计算次数：4

迭代计算次数：5

迭代计算次数：6

迭代计算次数：7

迭代计算次数：8

迭代计算次数：9

迭代计算次数：10

weixin_39919165

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。