15.11 聚类分析总结

最新推荐文章于 2025-05-24 10:40:00 发布

Debugging 我的人生

最新推荐文章于 2025-05-24 10:40:00 发布

阅读量962

点赞数 31

分类专栏：数学基础文章标签：机器学习支持向量机聚类人工智能算法数据挖掘

本文链接：https://blog.csdn.net/Leroi64/article/details/148186641

版权

139 篇文章

订阅专栏

技术背景
- 无需预设簇数：传统聚类算法（如K-means）需预先指定簇数，而层次聚类通过树状图（Dendrogram）自动展示多粒度聚类结果，适合生物学分类等需层次化解释的场景。
- 合并与分裂策略：
  - 自下而上（AGNES）：初始每个样本为独立簇，逐步合并距离最近的簇。
  - 自上而下（DIANA）：初始所有样本为一簇，逐步分裂为子簇。
数学逻辑与流程
- 距离矩阵计算：
  $D_{ij} = \|x_i - x_j\| \quad (x_i, x_j \in X)$
- 簇间距离度量：
  - 单链接（最小距离）：易形成链状结构，对噪声敏感。
  - 全链接（最大距离）：形成紧凑簇，但对形状敏感。
- 终止条件：所有样本合并为一簇或达到预设簇数。
实例与局限
- 树状图可视化：通过Python的scipy.cluster.hierarchy模块生成，支持自定义标签与翻转显示。
- 复杂度问题：计算全量距离矩阵的复杂度为 $O(n^3)$ ，难以处理大规模数据。

核心需求
- 预设簇数 $k$ ：需人工指定，适用于用户分群等已知簇规模的场景。
- 质心优化目标：最小化簇内平方和：
  $\sum_{i=1}^k \sum_{x \in C_i} \|x - \mu_i\|^2$
工作流程
- 随机初始化：随机选择 $k$ 个质心，易受初始值影响（需多次重启）。
- 迭代优化：
  1. 分配样本：每个样本归入最近质心对应的簇。
  2. 更新质心：计算簇内均值作为新质心。
- 终止条件：质心位置不再变化或达到最大迭代次数。
局限与改进
- 球形假设：无法处理环形、流形数据（如笑脸数据集的外圈被错误分割）。
- 评估难题：无监督场景下需依赖轮廓系数等指标，但缺乏真实标签验证。

技术动机
- 任意形状适应：城市交通热点、社交网络社区等场景需识别非凸簇。
- 参数定义：
  - 邻域半径 $\epsilon$ ：决定密度阈值。
  - 最小邻域点数 $\text{MinPts}$ ：判定核心点的标准。
核心概念与流程
- 密度直达与可达：
  - 若 $x_j \in N_\epsilon(x_i)$ 且 $x_i$ 为核心点，则 $x_j$ 从 $x_i$ 密度直达。
  - 通过链式路径合并所有密度可达点，形成簇。
- 数据点分类：
  - 核心点： $\epsilon$ -邻域内点数 $\geq \text{MinPts}$ 。
  - 噪声点：未被任何核心点邻域覆盖。
参数敏感性与实例
- $\epsilon$ 过小：真实簇被分割为碎片（如交通热点误判为多个小区域）。
- $\epsilon$ 过大：噪声被误吸收入簇（如信用卡异常交易混入正常交易）。

算法	适用场景	优势	局限
层次聚类	小规模数据、生物学分类	无需预设簇数，可视化直观	计算复杂度高 $O(n^3)$
K-means	凸形数据、用户分群	计算高效 $O (nk d)$	依赖初始质心，无法处理非凸结构
DBSCAN	非凸结构、噪声过滤	抗噪声强，自动识别任意形状簇	高维数据需降维，参数敏感