K-means聚类算法是机器学习中一个非常基础和常用的算法,Python中有很多库都可以实现,比如sklearn。以下是一个简单的使用sklearn中K-means算法进行聚类的示例代码:
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt# 假设我们有一些二维数据
data = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])# 设置我们想要的聚类数量
n_clusters = 2# 创建KMeans对象
kmeans = KMeans(n_clusters=n_clusters, random_state=0)# 对数据进行拟合
kmeans.fit(data)# 预测每个数据点的聚类标签
labels = kmeans.predict(data)# 打印聚类中心和标签
print("Cluster centers:")
print(kmeans.cluster_centers_)
print("Labels:")
print(labels)# 绘制结果
plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis')centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)plt.show()
在这个例子中,我们首先生成了一些二维数据,然后设置了我们想要的聚类数量。然后,我们创建了一个KMeans对象,并用我们的数据对其进行拟合。拟合后,我们可以使用predict方法来预测每个数据点的聚类标签。最后,我们打印出了聚类中心和每个数据点的标签,并用matplotlib绘制了结果。
注意,K-means算法对初始聚类中心的选择是敏感的,这可能导致每次运行的结果都有所不同。在上面的代码中,我们通过设置random_state参数来确保每次运行的结果都是一致的。如果你想要每次运行都得到不同的结果,可以移除random_state参数。