sklearn之Kmeans算法

最新推荐文章于 2024-06-24 19:08:35 发布

风一样的男子123

最新推荐文章于 2024-06-24 19:08:35 发布

阅读量599

点赞数

分类专栏： python 文章标签： Kmeans

本文链接：https://blog.csdn.net/qq_34756936/article/details/72869058

版权

这篇博客介绍了如何使用sklearn库实现KMeans聚类算法。首先，通过numpy生成了两个数据集cluster1和cluster2，然后使用hstack进行数据拼接。接着，通过matplotlib绘制数据点分布图。进一步，引入scipy.spatial.distance模块计算欧氏距离，并使用KMeans进行聚类，通过肘部法则确定最佳的K值，展示了如何评估平均畸变程度。

摘要由CSDN通过智能技术生成

-- coding: UTF-8 --

import numpy as np
import matplotlib.pyplot as plt

随机生成一个实数，范围在（0.5,1.5）之间

cluster1=np.random.uniform(0.5,1.5,(2,10))
cluster2=np.random.uniform(3.5,4.5,(2,10))

hstack拼接操作

X=np.hstack((cluster1,cluster2)).T
plt.figure()
plt.axis([0,5,0,5])
plt.grid(True)
plt.plot(X[:,0],X[:,1],’k.’)

from sklearn.cluster import KMeans

用scipy求解距离

from scipy.spatial.distance import cdist
K=range(1,10)
meandistortions=[]
for k in K:
kmeans=KMeans(n_clusters=k)
kmeans.fit(X)
meandistortions.append(sum(np.min(
cdist(X,kmeans.cluster_centers_,
‘euclidean’),axis=1))/X.shape[0])
plt.plot(K,meandistortions,’bx-‘)
plt.xlabel(‘k’)
plt.ylabel(u’平均畸变程度’)
plt.title(u’用肘部法则来确定最佳的K值’)

plt.show()

这里写图片描述