运用三角不等式加速Kmeans聚类算法

最新推荐文章于 2024-09-22 17:12:26 发布

weixin_30298497

最新推荐文章于 2024-09-22 17:12:26 发布

阅读量931

点赞数 2

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/bradleon/p/6842549.html

版权

本文介绍了如何运用三角不等式优化K-means聚类算法，减少不必要的距离计算，尤其适用于大数据量场景。通过引理1和引理2，可以判断数据点是否需要变更其所属簇，从而提高算法效率。

摘要由CSDN通过智能技术生成

运用三角不等式加速Kmeans聚类算法

引言：最近在刷《数据挖掘导论》，第九章, 9.5.1小节有提到，可以用三角不等式，减少不必要的距离计算，从而达到加速聚类算法的目的。这在超大数据量的情况下，尤为重要。但是书中并没有给出解释和证明。本文以k-means聚类算法为代表，讲解下怎么利用三角不等式减少计算过程。

1. 三角不等式

任一三角形，两边之和大于第三边，两边之差小于第三边。可以从欧式距离扩展到多维欧几里得空间：设任意三个向量a,b,c。d(x,y)代表x,y在空间上的距离,则三角不等式满足：
\[d(a,b)+d(b,c)\ge d(a,c) , d(a,b) - d(b,c) \le d(a,c)\]

2.K-means算法

K-mean算法

随机选择K个数据点作为初始质心
repeat：
计算每一个数据点计算到现有K个质心的距离，将它归属到距离最近质心的所在簇中
重新计算质心。
until 所有质心不再变动

3. 定义

\[假设存在数据点集 X=\{x_1, x_2,..,x_n\} , 质心的集合C=\{ C_1,C_2,...,C_m\}, 对应的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30298497

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

K-means(tri)利用三角不等式性质加速k-means

haimengao的专栏

06-09

3702

paper:Using the Triangle Inequality to Accelerate k-means 公式1：x

几种聚类算法的结合运用(K-MEANS K-medoids 最大最小距离算法)

jyxjyx27的专栏

01-12

6697

几种聚类算法的结合运用（K-MEANS、 K-medoids、最大最小距离算法） 聚类算法通常会得到一种分类，将n个点聚合成k类，同一聚类（即插槽簇）中的对象相似度较高；而不同类中的对象相似度较小。 聚类算法的基本流程如下：（1）从n个节点中选择 k 个节点作为初始聚类中心。（2）将剩余节点根据它们与这k个聚类中心的代价大小，分别将它们分配给与其代价最小的（聚类中心所代表的）聚类。（3）

参与评论您还未登录，请先登录后发表或查看评论

pluribus第二课：利用三角形不等公式加速k-means

qq_30325761的博客

07-06

921

pluribus第二课：利用三角形不等公式加速k-means 写在前面利用三角形不等公式加速k-meansc++并行的经验写在前面本文主要的目的是记录自己实现pluribus的过程中，编程和程序执行过程中遇到的问题！希望能和大家分享经验，这篇文章仍然讲的是聚类牌组的阶段。poker ai的前期数据处理的难点在于基础数据庞大，河牌阶段的牌组就有上亿种可能，对于这种较大的数据，程序的效率成为成败的关键，方案不好很可能在计算数周乃至数月的时间，最开始尝试的时候，我使用的是python 计算聚类，发现计算emd

使用MiniBatchKMeans加速kmenas聚类算法的计算

wj1298250240的博客

12-19

498

使用MiniBatchKMeans加速kmenas聚类算法的计算 MiniBatchKMeans batch_size控制每个批次中样本的数量 # 加速keans算法的计算 from sklearn import datasets from sklearn.preprocessing import StandardScaler from sklearn.cluster import MiniB...

Python——Kmeans聚类算法、轮廓系数（算法理论、代码）

小平凡的记录的博客

02-22

2万+

Kmeans聚类算法、轮廓系数（算法理论、代码）、饼图

机器学习算法之KMeans聚类算法实现.zip

04-20

KMeans聚类算法是机器学习领域中广泛应用的一种无监督学习方法，主要用于数据的分组或分类。它通过迭代过程将数据点分配到最近的聚类中心，从而形成不同的簇。KMeans算法简单、易于理解且在大数据集上也能高效运行，...

kmeans聚类目的干什么的_零基础学习Kmeans聚类算法的原理与实现过程

weixin_39898248的博客

10-22

2178

内容导入：聚类是无监督学习的典型例子，聚类也能为企业运营中也发挥者巨大的作用，比如我们可以利用聚类对目标用户进行群体分类，把目标群体划分成几个具有明显特征区别的细分群体，从而可以在运营活动中为这些细分群体采取精细化、个性化的运营和服务；还可以利用聚类对产品进行分类，把企业的产品体系进一步细分成具有不同价值、不同目的的多维度的产品组合，在此基础分别制定和相应的开发计划、运营计划和服务规划。这都将提升...

Kmeans.docx K均值聚类算法实验报告

01-07

为了克服这些局限性，研究人员发展出了多种改进的K-means算法，如Elkan版本的K-means，它利用三角不等式减少距离计算，或者使用谱聚类、DBSCAN等其他类型的聚类算法来处理复杂的数据分布情况。在市场细分、社交...

kmeans聚类

冯大洋的博客

06-30

1万+

聚类算法介绍 k-means算法介绍 k-means聚类是最初来自于信号处理的一种矢量量化方法，现被广泛应用于数据挖掘。k-means聚类的目的是将n个观测值划分为k个类，使每个类中的观测值距离该类的中心（类均值）比距离其他类中心都近。 k-means聚类的一个最大的问题是计算困难，然而，常用的启发式算法能够很快收敛到局部最优解。这通常与高斯分布的期望最大化算法相似，这两种算法都采用迭代...

Charles Elkan的快速k-means算法的代码

11-14

Charles Elkan2003年发表的《using the triangle inequality to accelerate k-means》的快速k-means算法的代码

K-means算法的基本原理

热门推荐

纯粹的博客

06-06

2万+

K-means算法的基本原理 K-means算法的概念 K-means算法是一种典型的基于划分的聚类算法,该算法具有运算速度快，执行过程简单的优点，在很多大数据处理领域得到了广泛的应用。 K-means算法的思想利用相似性度量方法来衡量数据集中所有数据之间的关系，将关系比较密切的数据划分到一个集合中。 K-means算法首先需要选择K个初始化聚类中心，然后计算每个数据对象到K个初始化聚类中心的距离，将数据对象分到距离聚类中心最近的那个数据集中，当所有数据对象都划分以后，就形成了K个数据集（即K个簇），接下

python KMeans聚类加速计算一些简单技巧和坑总结

mantoureganmian的专栏

10-13

3560

sklearn kmeans 聚类加速，踩坑

Using the Triangle Inequality to Accelerate k-Means

haimengao的专栏

06-01

878

If a point is far away from a center, it is not necessary to calculate the exact distance between the point and the center. 如果一个点距离中心很远，那么计算这个d

Triangle inequality

screaming的博客

05-24

2972

Triangle inequality From Wikipedia, the free encyclopedia This article is about the basic inequality z ≤ x + y. For other inequalities associated with triangles, see List of triangle i

K-means Algorithm 聚类算法

GarfieldEr007的专栏

05-22

1万+

在监督学习中，有标签信息协助机器学习同类样本之间存在的共性，在预测时只需判定给定样本与哪个类别的训练样本最相似即可。在非监督学习中，不再有标签信息的指导，遇到一维或二维数据的划分问题，人用肉眼就很容易完成，可机器就傻眼了，图(1)描述得很形象。但处理高维度的数据，人脑也无能为力了，最终还是得设计算法让机器来完成。如何将所有样本分成若干个类簇(cluster)，并且每个类簇中的样本具

聚类算法之K-means算法

Microstrong

03-10

1357

目录：（1）理解相似度度量的各种方法与相互联系（熟悉闵可夫斯基距离，其他作为了解）（1）掌握K-means聚类的思路和使用条件（一）聚类的定义聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。聚类是无监督学习。（二）相似度、距离计算方法总结相似度跟距离是相反的概念。如果两个样本Xi与Xj ...

K-means聚类算法

TRTK

04-18

4771

原文地址：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚

简单题101. 对称二叉树（python）20240922