机器学习——基本聚类算法原理总结（清晰易懂，适合大学牲体质）

最新推荐文章于 2024-07-19 13:59:11 发布

ForMatingW

最新推荐文章于 2024-07-19 13:59:11 发布

阅读量1.7k

点赞数 29

文章标签：算法聚类机器学习

本文链接：https://blog.csdn.net/m0_62609486/article/details/135887689

版权

本文详细介绍了层次聚类和K-means聚类算法，包括层次聚类的层次结构、合并规则和停止条件，以及K-means聚类的聚类策略、算法流程和对初始聚类中心的依赖。讨论了它们在处理大数据集的优点和对簇形状、噪声等因素的敏感性。

摘要由CSDN通过智能技术生成

聚类算法

层次聚类：假设类别之间存在层次结构，将样本聚到层次化的类中。
- 分为聚合聚类和分裂聚类。
硬聚类：每个样本只能属于一个类。
K-means聚类：基于样本集合划分的聚类算法。
（将样本集合划分为 $k$ 个子集， $n$ 个样本划分到 $k$ 个类中，使每个样本到聚类中心的距离最小）
- 优点：
  1. 简单、快捷
  2. 能处理大数据集，复杂度约为 $O (n K T)$ 。
  3. 当簇是密集的、球状的或团状的，而簇与簇之间区别明显时，聚类效果好。
- 缺点：
  1. 要求用户事先给出 $k$ 。
  2. 对初值敏感，会导致不同的聚类结果。
  3. 不适合发现非凸面的簇，或大小差别很大的簇。
  4. 对于“噪声”和孤立点数据敏感。
欧式距离： $dist(x_i, x_j) = \|x_i - x_j\|_2 = \sqrt{\sum_{u =1}^n |x_{iu} - x_{ju}|^2}$
聚合聚类三要素：
- 距离 & 相似度：
  闵可夫斯基距离、马氏距离、相关系数、夹角余弦。
- 合并规则：
  类间距离最小。（最短距离、最长距离、中心距离、平均距离）
- 停止条件：
  类的个数达到阈值、类的直径超过阈值。

步骤：

聚类准则函数最小化：通过损失函数的最小化选取最优的划分或函数 $C^*$ 。

任选 $K$ 个初始聚类中心： $Z_1^{(1)},Z_2^{(1)}, \cdots ,Z_K^{(1)}$ 。
按最小距离原则将其余样本归到相应的类 $Z_j$ 中。（ $k$ 为运算迭代次数）
$min\{\|X - Z_i^{(k)}\|, i = 1, 2, \cdots , K\} = \| X - Z_j^{(k)}\| = d_j^{(k)}$
计算各个聚类中心的向量值。（ $N_j$ 为该类的样本数）
$Z_j^{(k + 1)} = \frac{1}{N_j} \sum_{X \in S_j^{(k)}} X \ \ \ \ j = 1,2, \cdots, K$
若 $Z_j(k + 1) \ne Z_j(k)$ ，则回到（2）,根据新的样本中心逐个重新分类，重复迭代计算；否则计算完毕。