实验、K-means聚类实现-CSDN博客

本文链接：https://blog.csdn.net/2201_75467743/article/details/144283651

实验目标

本实验旨在帮助理解K-means聚类的基本原理，学习如何使用Scikit-learn库实现K-means聚类，并通过实验观察其在不同数据集上的效果。学会数据标准化、如何确定聚类数目以及评估聚类效果。

实验环境

o Python 3.x

o Scikit-learn库

o Jupyter Notebook

o Matplotlib

实验数据集

本实验采用sklearn提供的make_blobs数据生成器，生成具有3个中心点的二维数据集，以便于观察和可视化K-means聚类结果。

实验步骤

一、导入必要的库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib  # 设置中文字体
matplotlib.rcParams['font.sans-serif'] = ['SimHei']    # SimHei 是常用的中文黑体字体
matplotlib.rcParams['axes.unicode_minus'] = False    # 显示负号

二、生成数据集

X, y = make_blobs(n_samples=1000, centers=[[0, 0], [1, 1], [2, 2]], cluster_std=[0.3, 0.2, 0.3], random_state=42)
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c='blue', s=50, alpha=0.5)
plt.title("Generated Data (Before Standardization)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

三、数据预处理-标准化

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c='green', s=50, alpha=0.5)
plt.title("Generated Data (After Standardization)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

四、计算wcss，手肘法确定最佳簇数

wcss = []
for k in range(1, 9):  
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    wcss.append(kmeans.inertia_)
plt.figure(figsize=(8, 6))
plt.plot(range(1, 9), wcss, marker='o', color='blue')
plt.title('Elbow Method for Optimal k')
plt.xlabel('Number of Clusters')
plt.ylabel('WCSS')
plt.show()

五、根据手肘法结果，选择合适的k值 (如选择 k=3)，拟合模型并预测

kmeans = KMeans(n_clusters=3, random_state=42)
y_kmeans = kmeans.fit_predict(X_scaled)
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=y_kmeans, cmap='viridis', s=50, alpha=0.6)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
plt.title("K-Means Clustering Results (k=3)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

六、评估聚类效果（如使用轮廓系数）

sil_score = silhouette_score(X_scaled, y_kmeans)
print(f"Silhouette Score: {sil_score:.4f}")
from sklearn.metrics import calinski_harabasz_score
calinski_score = calinski_harabasz_score(X_scaled, y_kmeans)
print(f"Calinski-Harabasz Score: {calinski_score:.4f}")