吴恩达机器学习（十三）——K-Means聚类算法

最新推荐文章于 2022-09-20 10:39:19 发布

大鹏小站

最新推荐文章于 2022-09-20 10:39:19 发布

阅读量1.5k

点赞数 3

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linjpg/article/details/104265085

版权

本文介绍了K-Means聚类算法的基本思想、算法流程、数学原理及其实现过程。通过实例展示了如何分组并计算质心，讨论了算法的优缺点以及在确定K值、选择初始质心等方面的注意事项。此外，还提到了数据预处理的重要性，如单位一致性与标准化。

摘要由CSDN通过智能技术生成

一、聚类思想

所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的数据有相似的特征，如下图所示：
在这里插入图片描述

根据样本之间的距离或者说是相似性（亲疏性），把越相似、差异越小的样本聚成一类（簇），最后形成多个簇，使同一个簇内部的样本相似度高，不同簇之间差异性高。

二、k-means聚类分析算法

相关概念：

K值：要得到的簇的个数

质心：每个簇的均值向量，即向量各维取平均即可

距离量度：常用欧几里得距离和余弦相似度（先标准化）
在这里插入图片描述

算法流程：

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大&

最低0.47元/天解锁文章

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大鹏小站 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。