kmeans中的k的含义_《K-means》知识点与思考

本文介绍了K-means聚类算法的基本原理,包括算法步骤、目标函数以及K值选择的影响。K-means通过迭代找到数据的最佳划分,但K值的选择至关重要,可以通过肘部法则等方法确定。此外,算法的收敛性和初始中心点选择也会影响结果。同时,讨论了距离度量的多样性,如欧式距离和曼哈顿距离。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、K-means概述

K-means方法是非监督学习(Unsupervised learning)中的一种,非监督学习仍然需要数据,但是这些数据无需标签。

K-means是一种常见的聚类算法,所谓聚类,即把相似的物体聚集在一起,用于发现数据的规律或模式。聚类可以用于用户分群、图像分割等方面。K-means中的K代表将数据集分为K个类。

二、K-means算法

K-means的中心思想与监督学习中的kNN(可用于分类、回归)十分类似,都是计算数据点之间的“相似度”,这种相似度通常用距离来描述。一个数据点与之间的距离越近,则两个数据点越相似,于是这两个数据点可以视为一类。当然,由于事先并不知道数据集中的哪个点作为中心点合适,所以实际过程中,需要先随机选择一个点作为初始中心点,再计算数据集中的点与该初始中心点的距离。

K-means算法是一种循环迭代式的算法,具体包含以下步骤:初始化:随机选择K个点,作为初始中心点,每个点代表一个“类”。

计算每个点到所有中心点的距离,把最近的距离记录下来,并赋予距离最近中心的类。

针对每一个类里所有的点,计算它们的平均并作为这个类新的中心点。

第2步与第3步交替进行,直至聚类中心点不再发生明显变化。

将上述步骤表示为伪代码(引自博客1):K-means算法过程的伪代码

用一组示意图来表示K-means算法的实现过程:K-means算法的实现过程

K-means算法中,假设数据集有N个点,则每一次迭代的复杂度为o(KN)+o(N),前者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值