K-means聚类算法

最新推荐文章于 2022-09-06 23:28:20 发布

SM-Alan

最新推荐文章于 2022-09-06 23:28:20 发布

阅读量610

点赞数

分类专栏：机器学习文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cugb1004101218/article/details/44282801

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

背景

照例每周一个机器学习的经典算法，聚类是机器学习中一种重要的算法，特别是在推荐中，用户喜欢某一类item，我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的，比如上一回朴素贝叶斯分类器中，我们把小明喜欢的妹子给看成一大类，那么从历史数据中可以看出来，小明喜欢胸大的妹子，胸大就是这些妹子的共同特征。

相似item

那么现在问题来了，如何才能算是相似的item呢，方法有很多种，最常用的就是把item的特征看做一个向量，每一维特征具体量化成可以计算的数，然后计算向量之间的距离，最常见的就是余弦距离了，当然，距离有很多种，在此不在赘述。

画圈圈

找到了相似的item，那么我们想办法把这些相似的item画个圈圈给圈起来就行了，就是给每个类找一个中心点，让某类中的每个item到这个中心点的距离小于其他类的中心点。

具体流程

首先随机选择K个点作为K个大类各自的中心点。
对于每个item，通过计算，找出离这个item最近的大类的中心点，把这个item分到这个大类中。
计算每个大类中当前的item的每一维特征的算术平均数，得到一个新的中心点。
重复2、3步骤，直到收敛（即中心点不再变化）

举个栗子，此处盗图，侵联删

初始点

第一次聚类

第二次聚类

第三次聚类

也有蛋疼的情况

如果初始中心点这么选

那么很悲剧
最终的聚类结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。