聚类算法的介绍、原理及应用场景—K-means聚类、层次聚类、密度聚类、模型聚类、图聚类

最新推荐文章于 2025-03-29 10:12:20 发布

rubyw

最新推荐文章于 2025-03-29 10:12:20 发布

阅读量5.8k

点赞数 21

分类专栏： # 概念及理论文章标签：算法聚类 kmeans 机器学习

本文链接：https://blog.csdn.net/rubyw/article/details/140120396

版权

概念及理论专栏收录该内容

43 篇文章

订阅专栏

聚类算法是一种无监督学习方法，用于将一组数据点分成若干个簇，使得同一个簇中的数据点彼此相似，而不同簇中的数据点则差异较大。聚类在数据挖掘、图像处理、市场分析、推荐系统等领域有广泛应用。

聚类算法的分类

聚类算法可以根据其工作原理和应用场景分为以下几类：

1. 基于划分的方法

这类算法将数据集划分成预先指定数量的簇，通过迭代优化某个目标函数（如簇内距离之和）来获得最优划分。常见的算法包括：

K-means：通过迭代优化使得每个簇的质心和簇内数据点的平方和最小。
K-medoids（PAM）：类似于K-means，但使用实际的数据点作为中心点，减少噪声和异常值的影响。

2. 基于层次的方法

这类算法通过建立层次结构来进行聚类，可以生成树状结构（树形图），包括：

凝聚层次聚类（Agglomerative Hierarchical Clustering）：从每个数据点开始，不断合并最近的簇，直到所有数据点都在一个簇中。
分裂层次聚类（Divisive Hierarchical Clustering）：从所有数据点开始，不断分裂最不相似的簇，直到每个数据点都是一个簇。

3. 基于密度的方法

这类算法通过识别数据点密集区域来形成簇，可以有效处理噪声和形状复杂的簇。常见的算法包括：

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）：通过密度连接形成簇，能够自动识别簇的数量，并处理噪声。
OPTICS（Ordering Points To Identify the Clustering Structure）：扩展了DBSCAN，可以发现不同密度的簇。

4. 基于模型的方法

这类算法假设数据由某个潜在的概率模型生成，通过估计模型参数进行聚类。常见的算法包括：

高斯混合模型（GMM）：假设数据由若干个高斯分布生成，通过期望最大化（EM）算法估计模型参数。
潜在狄利克雷分配（LDA）：通常用于文本数据的主题建模，假设文档由若干个潜在主题生成。

5. 基于图的方法

这类算法通过构建图结构来表示数据点之间的关系，通过图分割进行聚类。常见的算法包括：

谱聚类（Spectral Clustering）：通过构建相似度矩阵和图拉普拉斯矩阵，进行特征分解和K-means聚类。
社区检测（Community Detection）：用于社交网络分析，识别网络中的社区结构。

具体算法介绍

K-means算法

K-means是最常用的聚类算法之一。其主要步骤如下：

初始化：随机选择K个数据点作为初始质心。
分配数据点：将每个数据点分配给最近的质心，形成K个簇。
更新质心：计算每个簇的质心，更新质心位置。
迭代：重复步骤2和3，直到质心不再变化或达到最大迭代次数。

import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 生成示例数据
np.random.seed(0)
X = np.random.rand(100, 2)

# 训练K-means模型
kmeans = KMeans(n_clusters=3, random_state=0).fit(X)

# 预测聚类结果
labels = kmeans.predict(X)

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='x')
plt.title('K-means Clustering')
plt.show()

DBSCAN算法

DBSCAN是一种基于密度的聚类算法，其主要步骤如下：

核心点：选择一个数据点，如果在其ε邻域内的数据点数大于等于MinPts，则该点为核心点。
直接密度可达：如果一个点在核心点的ε邻域内，则认为它们是直接密度可达的。
密度可达：如果一个点可以通过一系列核心点到达另一个点，则它们是密度可达的。
聚类形成：所有密度可达的点形成一个簇，无法归入任何簇的点为噪声点。

from sklearn.cluster import DBSCAN

# 生成示例数据
np.random.seed(0)
X = np.random.rand(100, 2)

# 训练DBSCAN模型
dbscan = DBSCAN(eps=0.1, min_samples=5).fit(X)

# 获取聚类标签
labels = dbscan.labels_

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.title('DBSCAN Clustering')
plt.show()

谱聚类算法

谱聚类是一种基于图论的聚类算法，其主要步骤如下：

构建相似度矩阵：计算数据点之间的相似度，生成相似度矩阵。
计算图拉普拉斯矩阵：从相似度矩阵中构建图拉普拉斯矩阵。
特征分解：对图拉普拉斯矩阵进行特征值分解，选取前K个特征向量。
K-means聚类：将特征向量作为输入，进行K-means聚类。

from sklearn.cluster import SpectralClustering

# 生成示例数据
np.random.seed(0)
X = np.random.rand(100, 2)

# 训练谱聚类模型
spectral = SpectralClustering(n_clusters=3, affinity='nearest_neighbors', random_state=0).fit(X)

# 获取聚类标签
labels = spectral.labels_

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.title('Spectral Clustering')
plt.show()

聚类算法的评价指标

评价聚类算法的效果可以使用以下指标：

轮廓系数（Silhouette Coefficient）：衡量数据点与其所在簇和最近邻簇的距离差异，取值范围为[-1, 1]，越大越好。
SSE（Sum of Squared Errors）：衡量簇内数据点与簇质心的距离平方和，越小越好。
调整兰德指数（Adjusted Rand Index, ARI）：衡量聚类结果与真实分类结果的一致性，取值范围为[-1, 1]，越大越好。

from sklearn.metrics import silhouette_score, adjusted_rand_score

# 示例数据和标签
X = np.random.rand(100, 2)
true_labels = np.random.randint(0, 3, 100)

# 训练K-means模型
kmeans = KMeans(n_clusters=3, random_state=0).fit(X)
predicted_labels = kmeans.labels_

# 计算评价指标
sil_score = silhouette_score(X, predicted_labels)
ari_score = adjusted_rand_score(true_labels, predicted_labels)

print(f'Silhouette Score: {sil_score:.2f}')
print(f'Adjusted Rand Index: {ari_score:.2f}')