K-means聚类

熙尛

于 2024-05-23 22:30:01 发布

阅读量924

点赞数 25

文章标签： kmeans

本文链接：https://blog.csdn.net/mj256115/article/details/139159173

版权

K-means聚类是一种非常流行的无监督机器学习算法，用于将数据集划分为K个不同的簇（clusters）。这种算法的目标是将数据点划分到K个簇中，使得每个数据点与其所属簇的中心（即质心）的距离之和最小。K-means聚类广泛应用于市场细分、社交网络分析、天文数据分析、信息检索、图像分割等领域。

K-means聚类的基本步骤：

选择K值：确定要将数据集划分为多少个簇，K值的选择通常基于领域知识或使用如肘部法则（Elbow Method）等启发式方法。
初始化质心：随机选择K个数据点作为初始的质心，或者使用K-means++算法来更智能地初始化质心。
分配数据点：将每个数据点分配到最近的质心所代表的簇中。
更新质心：重新计算每个簇的质心，通常是簇内所有点的均值。
迭代优化：重复步骤3和4，直到满足停止条件，如质心的变化小于某个阈值，或达到预设的迭代次数。
聚类完成：当质心不再显著变化时，算法结束，此时的数据点分配即为最终的聚类结果。

K-means聚类的关键概念：

质心（Centroid）：每个簇的中心点，是簇内所有点的均值。
簇（Cluster）：一组数据点的集合，这些点彼此之间比与簇外的点更相似。
距离度量：通常使用欧氏距离来衡量数据点与质心之间的距离，但也可以使用其他距离度量，如曼哈顿距离或余弦相似度。

K-means聚类的优缺点：

优点：

简单高效：算法逻辑简单，易于实现，且计算效率高。
应用广泛：适用于各种类型的数据集和多种应用场景。
可解释性：聚类结果易于解释和可视化。

缺点：

K值选择：需要预先指定K值，而K值的选择可能依赖于领域知识或试错。
局部最优：容易陷入局部最优解，而不是全局最优解。
对初始质心敏感：初始质心的选择会影响最终的聚类结果。
不适合非球形簇：K-means假设簇是凸形和相似大小的，不适合非球形或大小差异较大的簇。

K-means++算法：

K-means++是一种改进的K-means算法，用于解决随机初始化质心可能导致的局部最优问题。K-means++通过以下步骤初始化质心：

随机选择第一个质心。
对于每个后续质心，计算每个点成为新质心的概率，这个概率与其到最近质心的距离的平方成反比。
根据这些概率，使用概率性抽样方法选择新的质心。
重复步骤2和3，直到选择K个质心。

K-means++通过这种方式初始化质心，可以显著提高算法找到全局最优解的概率。

K-means聚类的应用：

市场细分：根据客户的购买行为将他们分为不同的群体。
社交网络分析：识别社交网络中的社区结构。
天文数据分析：根据星体的特征将它们分组。
生物信息学：基因表达数据的聚类分析。
图像分割：将图像分割成不同的区域或对象。

下面是一个使用Python和其科学计算库scikit-learn实现K-means聚类的简单示例。这个例子假设你已经有了一些数据，并希望将其分成3个簇。

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 初始化KMeans对象
kmeans = KMeans(n_clusters=3)

# 拟合模型
kmeans.fit(X)

# 预测每个点的簇标签
捕获 = kmeans.labels_

# 质心坐标
centers = kmeans.cluster_centers_

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=捕获, s=50, cmap='viridis')

# 可视化质心
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.show()