机器学习--K-Means聚类算法详解

# 导入必要的库
import pandas as pd
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
# pandas：用于数据处理和分析，尤其是读取和操作表格数据。
# KMeans：来自scikit-learn，用于实现K-Means聚类算法。
# metrics：提供评估聚类效果的指标，如轮廓系数。
# matplotlib.pyplot：用于绘制图表，如折线图。

# 读取数据
beer = pd.read_table("data.txt", sep=' ', encoding="utf8", engine="python")
# pd.read_table：从文本文件data.txt中读取数据。
# sep=' '：指定数据的分隔符为空格。
# encoding="utf8"：指定文件的编码格式为UTF-8。
# engine="python"：使用Python引擎读取文件。
# 数据被加载到beer这个DataFrame中。

#选择特征
x = beer[["calories", "sodium", "alcohol", "cost"]]
# 从beer数据集中选择用于聚类的特征列：calories（卡路里）、sodium（钠含量）、alcohol（酒精含量）和cost（成本）。
# 这些特征将作为K-Means算法的输入。

#计算轮廓系数并选择最佳K值
scores = []
for k in range(2, 10):
    labels = KMeans(n_clusters=k).fit(x).labels_
    score = metrics.silhouette_score(x, labels)
    scores.append(score)
# scores：用于存储不同K值对应的轮廓系数。
# for k in range(2, 10)：遍历K值从2到9。
# KMeans(n_clusters=k)：初始化K-Means模型，设置簇的数量为k。
# .fit(x)：对数据集x进行聚类。
# .labels_：获取每个样本的聚类标签。
# metrics.silhouette_score(x, labels)：计算轮廓系数，评估聚类效果。
# 轮廓系数的取值范围为[-1, 1]，值越接近1表示聚类效果越好。
# scores.append(score)：将当前K值的轮廓系数添加到scores列表中。

#绘制轮廓系数随K值变化的折线图
plt.plot(list(range(2, 10)), scores)
plt.xlabel("Number of Clusters Initialized")
plt.ylabel("Sihouette Score")
plt.show()
# plt.plot(list(range(2, 10)), scores)绘制K值（2到9）与轮廓系数的折线图。
# plt.xlabel和plt.ylabel：设置X轴和Y轴的标签。
# plt.show()：显示图表。
# 通过观察轮廓系数的变化，可以选择最佳的K值（轮廓系数最大的K值）。

#使用最佳K值进行聚类
km = KMeans(n_clusters=2).fit(x)
beer['cluster'] = km.labels_
# KMeans(n_clusters=2)：初始化K-Means模型，设置簇的数量为2（假设轮廓系数在K=2时最大）。
# .fit(x)：对数据集x进行聚类。
# km.labels_：获取每个样本的聚类标签。
# beer['cluster'] = km.labels_：将聚类标签添加到beer数据集中，作为新的一列cluster。

#计算最终聚类结果的轮廓系数
score = metrics.silhouette_score(x, beer.cluster)
print(score)
# metrics.silhouette_score(x, beer.cluster)：计算最终聚类结果的轮廓系数。
# print(score)：输出轮廓系数。

打印输出结果，得到轮廓系数随K值变化的折线图以及最终聚类结果的轮廓系数

7. 总结

K-Means聚类算法是一种简单而高效的聚类方法，广泛应用于各种领域。尽管K-Means算法存在一些局限性，如需要预先设定K值、对初始值敏感等，但通过合理的选择和优化，K-Means算法仍然能够取得良好的聚类效果。希望本文能够帮助读者更好地理解和掌握K-Means聚类算法，并在实际应用中发挥其强大的功能。