KNN和K-means

最新推荐文章于 2024-08-14 16:54:10 发布

9999sp

最新推荐文章于 2024-08-14 16:54:10 发布

阅读量337

点赞数

分类专栏：算法文章标签： kmeans 聚类数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31095293/article/details/120978841

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了KNN（K-nearest-neighbor）分类算法和K-means聚类算法的工作原理，包括它们的适用场景和优缺点。KNN算法无需训练，而K-means需要预训练且对k值和初始中心点敏感。针对K-means的缺点，文章阐述了K-means++的选择初始中心点的优化策略，以确保中心点间距离最大化。

摘要由CSDN通过智能技术生成

1、KNN（K-nearest-neighbor）

KNN是一个分类算法。算法思路：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的k个样本的类别来决定待分样本所属的类别。
KNN算法不需要前期训练，只需要给定数据集就可以分类了。

2、K-means

K-means是一个聚类算法，需要前期训练才可以使用。对于给定的数据集，随机选取k个样本作为初始聚类中心样本点，然后对剩下的样本，根据特征相似度进行类别划分，然后对k个类别计算中心点，作为新的聚类中心样本点，…，直到聚类中心不再变化。

K-means有两个缺点：

k的选取需要经验；
初始聚类中心样本点是随机选取的，不同的选择可能导致不同的结果。

3、K-means++

基于以上两个缺点，K-means++在选择初始聚类中心时，采用算法完成，基本思想是，选取的初始聚类中心相互之间的距离应该尽可能远。

首先随机选取一个聚类中心点seed;
然后计算剩余样本点到最近聚类中心点的距离d;
将所有的距离d相加(并记录样本点所在的区间)，得到D=sum(d);
生成一个0～D的随机值r，并将D -= r;
如果D <= 0，则选择当前样本点作为新的聚类中心点；
循环2到5，直到选完k个聚类中心。

在这里插入图片描述
假设：下图坐标中的原点为样本点，绿色为随机选中的第一个聚类中心点，我们需要选取k=2个聚类中心点：

此时，我们可以得到剩下5个样本点到聚类中心的距离，分别是5，14，12，15和7¹，他们的和为 $D = 53$ 。
之后生成一个0～53的随机数 $R_1$ ，很明显，这个随机数落在15、14、12三个区间的可能性更大，也就是距离聚类中心最远的3个样本点。
然后用 $D$ 减去 $R_1$ ，若结果大于零，则生成下一个随机数 $R_2$ 继续减，直到 $D < = 0$ ，并将此时随机数所代表的样本点作为新聚类中心点。

依次代表从上到下的第5、1、3、2、4个红色样本点。 ↩︎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

9999sp CSDN认证博客专家 CSDN认证企业博客

码龄9年

5: 原创

47万+: 周排名

41万+: 总排名

692: 访问

: 等级

41: 积分

1: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。