聚类分析: k-means算法

最新推荐文章于 2025-04-15 23:09:39 发布

guoziqing506

最新推荐文章于 2025-04-15 23:09:39 发布

阅读量2.8w

点赞数 6

分类专栏：数据挖掘机器学习机器学习经典算法研究文章标签：聚类数据挖掘无监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guoziqing506/article/details/59057427

版权

本文详细介绍了k-means聚类算法，包括其基本原理、步骤和局限性。k-means是一种基于形心的划分数据的方法，适用于大量无标签数据的自动归类。文章还提到了k-means算法的在线模式和k-means++算法，后者通过更智能地选择初始簇心以提高聚类质量和收敛速度。此外，讨论了k-means算法的局限性，如对初始点选择的敏感性和无法处理标称属性数据等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

k-means算法

聚类分析是数据分析中，非常重要的一类课题。他的作用是将大量的无标签数据通过计算，自动为其标注标签。众所周知，这一点是区别于数据分类技术的。而现实的场景中，无标签的数据显然多于有标签数据，因此，我在这里也是先说聚类，后面的博文，再说分类。

聚类的目的，是要将数据归为不同的类，基本原则是要相近的数据尽量归为一类，而不同类之间的数据则要尽量有比较大的差别。

说到聚类，当然最先想到的就是k-means算法。它不仅是最简单的聚类算法，也是最普及且最常用的。k-means算法是一种基于形心的划分数据的方法。我们给定一个数据集 $D$ ，以及要划分的簇数 $k$ ，就能通过该算法将数据集划分为 $k$ 个簇。一般来说，每个数据项只能属于其中一个簇。具体方法可以这样描述：

假设数据集在一个 $m$ 维的欧式空间中，我们初始时，可随机选择 $k$ 个数据项作为这 $k$ 个簇的形心 $C_i, i \in \{1, 2, \dots k\}$ ，每个簇心代表的其实是一个簇，也就是一组数据项构成的集合。然后对所有的 $n$ 个数据项，计算这些数据项与 $C_i$ 的距离（一般情况下，在欧式空间中，数据项之间的距离用欧式距离表示）。比如对于数据项 $D_j, j \in \{1, \dots n\}$ ，它与其中的一个簇心

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。