【K-Means聚类算法 + agglomerative层次聚类算法】机器学习公式推导计算+详细过程

最新推荐文章于 2024-01-04 17:26:46 发布

CV_William

最新推荐文章于 2024-01-04 17:26:46 发布

阅读量960

收藏 4

点赞数 1

分类专栏：机器学习人工智能文章标签：算法聚类机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41194171/article/details/107147108

版权

机器学习同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

人工智能

13 篇文章 0 订阅

订阅专栏

K-Means算法

K-Means聚类算法是非监督学习方法。对于样本数据，按样本之间的距离大小，将样本划分为K个簇。让簇内的点之间距离尽可能的小，同时让簇之间的距离尽可能的大。
簇划分为 $C_1, C_2, C_3, …, C_k）$

目标函数，最小化平方误差
$\sum_{i=1} ^ k \sum_{x \in C_i} ||x - \mu_i||^{2}_2 \quad$

(11.1)式中，$ \mu_i $是簇$ C_i $的均值向量，即为质心。

$\mu_i = \frac{1}{|C_i|}\sum_{x \in C_i} x \quad$

K-Means算法流程

input：样本D, 簇个数k, 最大迭代次数T

$D = {x_1, x_2, x_3, …,x_n}$

output：簇划分

、 $C =（C_1, C_2, C_3, …, C_k）$

1.从样本 $D$ 中随机选择 $k$ 个样本作为初始的k个质心向量： ${\mu_1，\mu_2, \mu_3, …, \mu_k}$ ,将每个簇初始化为 $\emptyset$

2.对于 $t = 1, 2, 3, \dots, T$

（1）对于 $i = 1, 2, 3, \dots, N$ ，计算样本 $x_i$ 和各个执行向量 $\mu_j, j = 1, 2, 3, …, k$ 的欧氏距离，将 $x_i$ 划分到最近的簇中，更新 $C_j = C_j \bigcup \{x_i\}$

（2）对于 $j = 1, 2, 3, \dots, k$ ， $C_j$ 中所有的样本点重新计算新的质心

（3）如果所有的 $k$ 个质心向量都没有发生变化，那么跳转到步骤（3）

3.最终输出簇划分

$C =（C_1, C_2, C_3, …, C_k）$

评估方法-肘部法则公式

$\sum_{i=1} ^ k \sum_{x \in C_i} ||x - \mu_i||^{2} \quad$

上式中， $C_i$ 是第 $i$ 簇， $x$ 是 $C_i$ 中的样本点， $\mu_i$ 是 $C_i$ 的质心，即 $C_i$ 所有样本的均值， $S S E$ 是所有样本的聚类误差。

agglomerative算法

agglomerative算法有两种实现方式：一种是“自底向上”的Hierarchical；另一种是“自顶向下”的Divisive。

** Hierarchical算法 **

Hierarchical算法：“自底向上”。首先每个样本点各自为一个类别，然后每一次迭代去距离最近的两个类别将他们合并，最后只有一个类别时，迭代结束。

** 计算距离公式 **

最小距离公式（single-linkage）：

$d_{min}(C_i, C_j) = min \quad dist(p, q) \quad$

上式中， $C_i, C_j$ 为聚类簇， $\in C_i, q \in C_j$
最大距离公式(complete-linkage)

$d_{max}(C_i, C_j) = max \quad dist(p, q) \quad$

*上式中， $C_i, C_j$ 为聚类簇， $\in C_i, q \in C_j$

平均距离公式(average-linkage)

$d_{avg}(C_i, C_j) = \frac{1}{|C_i||C_j|} \sum_{p \in C_i} \sum_{q \in C_j} dist(p, q) \quad$

上式中， $C_i, C_j$ 为聚类簇， $\in C_i, q \in C_j$

Hierarchical算法流程

1.将每个样本作为一个簇。

2.计算任意两侧簇之间的距离，选取距离最近的两个簇。

3.将步骤2中的两个簇合并成一个新的簇，删除合并前的那两个簇。

4.重复步骤2、步骤3，直到所有簇仅剩一个簇，迭代结束。

欢迎大家交流学习，任何问题都可以留言

CV_William

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值