一种更快的Kmeans原理与实现

VIP文章 boring_111

已于 2024-01-20 16:08:34 修改

阅读量782

点赞数 20

文章标签： kmeans 算法机器学习

于 2024-01-20 15:39:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63691156/article/details/135706180

版权

普通的k-means实现大多需要多轮迭代，一轮需要O(n * k)的复杂度，其中n是数据量，k是聚类的数量。观察到大部分地方的标准均值中的大多数距离计算都是冗余的。所以Elkan-Kmeans通过三角不等式来优化这一过程，减少无效计算。

困难在于三角不等式给出了上界，但我们需要下界以避免计算。设p是一个点，c1和c2是中心，我们需要知道d(p,c1) ≤ d(p,c2)才能避免计算实际的d(p,c2)值。

第一种规律是对于一个样本点x和两个质心μj1,μj2。如果我们预先计算出了这两个质心之间的距离D(j1,j2)，则如果计算发现2D(x,j1)≤D(j1,j2),就可以知道D(x,j1)≤D(x,j2)。此时我们不需要再计算D(x,j2)。
第二种规律是对于一个样本点x和两个质心μj1,μj2。我们可以得到
D(x,j2)≥max{0,D(x,j1)−D(j1,j2)}。

我们不维护每一对点的距离的上界，只维护一个数据点到它的锚定点的距离的上界u(x)。一开始数据点到锚定点的距离是确定的，上界也确定，若该点的锚定点发生了位移，根据定理1则 u(x)+=dis(m(c(x)),c(x))，m(c)表示c位移后的位置（代码中为mean），c(x)表示x数据点点锚定的中点。同时当我们计算x到它锚定点的距离的时候，我们顺手更新一下这个上界为x到它当前的锚定点的距离，让它不会一直增大以至于算法后期失去约束能力。同时，我们可以记录一下这个点它的上界是否仍然是c到x的距离，如果是的话，我们又能省去一次计算距离。

我们维护每一个数据点x到中点c的距离的下界l(x,c)，一开始赋值为距离，迭代的时候，根据定理2，

伪代码

1.先预处理dist c c'

2.然后根据第一个规则优化出待选点

3.然后在当前可能中心点中，选择可能的中心点（u(x)上界，大于可能的收益,也就是l(x, c)）或者根据规律1

a.然后r(x)来标记是否进行计算（是否u(x) 过期，同时减少u（x）膨胀失效）

如果不计算的话，直接用u(x)来代替计算距离（update l, u）

b.然后根据原来的距离是不是大于l(x,c) ,是否根据第一个规则是否有优化的可能。

如果有的话，进行计算（（update l, u&#x

最低0.47元/天解锁文章

关注

20
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
一种更快的Kmeans原理与实现

如果我们预先计算出了这两个质心之间的距离D(j1,j2)，则如果计算发现2D(x,j1)≤D(j1,j2),就可以知道D(x,j1)≤D(x,j2)。在距离计算方面，每次迭代的最小距离计算次数为k*(k-1)/2，对于较大的k（例如矢量量化），这可能是主要的开销。我们不维护每一对点的距离的上界，只维护一个数据点到它的锚定点的距离的上界u(x)。我们维护每一个数据点x到中点c的距离的下界l(x,c)，一开始赋值为距离，迭代的时候，根据定理2，d)的时间复杂度，其中k是中心点的数量，d是数据的维度。
复制链接

扫一扫

boring_111 CSDN认证博客专家 CSDN认证企业博客

码龄3年

135: 原创

110万+: 周排名

5万+: 总排名

3万+: 访问

: 等级

1591: 积分

96: 粉丝

116: 获赞

3: 评论

131: 收藏

私信

关注

热门文章

分类专栏

最新评论

MIT6.824 lab2C&2D实验总结
出木杉英才: 佬您好！想请问，2B的Testfailagree2B该如何通过？原来的leader是S1，S2断联，term为1。随后S2不断自增term。重连之后S1先收到start(106)，而后再发现S2，导致S1转变状态之前已经发出了AE，使得S1、S2、S3均收到了106（term为1）。但是由于需要联系S2，RPC返回之后S1就发生了状态的变化，无法再去更新commitedIndex（我的heartbeat和）。而后任一server当选leader，无法提交106
MIT 6.824 lab2B 2023总结
了阔以: 你好，我想请问一下这个地方采用谭神blog里的方法分配一个replicator协程能解决一次复制不完的问题是什么意思，我不是很理解。
CMU-DB 2022 Project 2
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。