K-means

最新推荐文章于 2024-09-09 21:45:00 发布

kakak_

最新推荐文章于 2024-09-09 21:45:00 发布

阅读量109

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105358299

版权

38 篇文章 2 订阅

订阅专栏

K-Means

对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。
假设簇划分为 $C_1,C_2,...C_k)$ ，最小化平方误差E： $\sum\limits_{i=1}^k\sum\limits_{x \in C_i} ||x-\mu_i||_2^2$ 其中 $\mu_i$ 是簇 $C_i$ 的均值向量，也称为质心： $\mu_i = \frac{1}{|C_i|}\sum\limits_{x \in C_i}x$ 想直接求上式的最小值并不容易，这是一个NP难题，因此只能采用启发式的迭代方法。

传统K-Means算法流程

输入是样本集 $D=\{x_1,x_2,...x_m\}$ ，聚类的簇树k，最大迭代次数N
输出是簇划分 $C = (C_1,C_2,...C_k)$

从数据集D中随机选择k个样本作为初始的k个质心向量 $\{\mu_1,\mu_2,...,\mu_k\}$ (k: 交叉验证，质心: 不宜太近)
对于n=1,2,…,N:
- 将簇划分C 初始化： $C_t$ = ∅, 𝑡=1,2…𝑘
- 对于i=1,2…m，计算样本 $x_i$ 和各个质心向量 $\mu_t$ (t=1,2,…𝑘)的距离： $d_{it} = ||x_i - \mu_t||_2^2$ ，将 $x_i$ 标记为最小的 $d_{it}$ 所对应的类别 ${\lambda_t}$ 。此时更新 $C_{t} = C_{t} \cup \{x_i\}$
- 对于t=1,2,…,k，对 $C_t$ 中所有的样本点重新计算新的质心 $\mu_t = \frac{1}{|C_t|}\sum\limits_{x \in C_t}x$
- 如果所有的k个质心向量都没有发生变化，则跳出。
输出簇划分 $C = (C_1,C_2,...C_k)$

K-Means距离计算优化elkan K-Means

在传统的K-Means算法中，每次迭代时，要计算所有的样本点到所有的质心的距离，这样会比较的耗时。
elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质，来减少距离的计算。
对于一个样本点𝑥和两个质心 $\mu_{t1},\mu_{t2}$ 。预先计算出这两个质心之间的距离 $D(t_1,t_2)$
- 如果 $2D(x,t_1) \leq D(t_1,t_2)$ ，则 $D(x,t_1) \leq D(x,t_2)$ 。
- $D(x,t_2) \geq max\{0, D(x,t_1) - D(t_1,t_2)\}$ 。
但如果样本的特征是稀疏的有缺失值，此时某些距离无法计算，则不能使用该算法。

大样本优化Mini Batch K-Means

Mini Batch K-Means，选择一个合适批样本大小的batch size，仅仅用batch size个样本来做K-Means聚类。batch size一般通过无放回的随机采样得到的。
为了增加算法的准确性，一般会多跑几次Mini Batch K-Means算法，用得到不同的随机采样集来得到聚类簇，选择其中最优的聚类簇。