K-means聚类算法

背景

照例每周一个机器学习的经典算法,聚类是机器学习中一种重要的算法,特别是在推荐中,用户喜欢某一类item,我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的,比如上一回朴素贝叶斯分类器中,我们把小明喜欢的妹子给看成一大类,那么从历史数据中可以看出来,小明喜欢胸大的妹子,胸大就是这些妹子的共同特征。

相似item

那么现在问题来了,如何才能算是相似的item呢,方法有很多种,最常用的就是把item的特征看做一个向量,每一维特征具体量化成可以计算的数,然后计算向量之间的距离,最常见的就是余弦距离了,当然,距离有很多种,在此不在赘述。

画圈圈

找到了相似的item,那么我们想办法把这些相似的item画个圈圈给圈起来就行了,就是给每个类找一个中心点,让某类中的每个item到这个中心点的距离小于其他类的中心点。

具体流程

  1. 首先随机选择K个点作为K个大类各自的中心点。
  2. 对于每个item,通过计算,找出离这个item最近的大类的中心点,把这个item分到这个大类中。
  3. 计算每个大类中当前的item的每一维特征的算术平均数,得到一个新的中心点。
  4. 重复2、3步骤,直到收敛(即中心点不再变化)

举个栗子,此处盗图,侵联删

初始点
初始点
第一次聚类
第一次聚类
第二次聚类
第二次聚类
第三次聚类
第三次聚类

也有蛋疼的情况

如果初始中心点这么选
如果初始中心点这么选
那么很悲剧
最终的聚类结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值