背景
照例每周一个机器学习的经典算法,聚类是机器学习中一种重要的算法,特别是在推荐中,用户喜欢某一类item,我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的,比如上一回朴素贝叶斯分类器中,我们把小明喜欢的妹子给看成一大类,那么从历史数据中可以看出来,小明喜欢胸大的妹子,胸大就是这些妹子的共同特征。
相似item
那么现在问题来了,如何才能算是相似的item呢,方法有很多种,最常用的就是把item的特征看做一个向量,每一维特征具体量化成可以计算的数,然后计算向量之间的距离,最常见的就是余弦距离了,当然,距离有很多种,在此不在赘述。
画圈圈
找到了相似的item,那么我们想办法把这些相似的item画个圈圈给圈起来就行了,就是给每个类找一个中心点,让某类中的每个item到这个中心点的距离小于其他类的中心点。
具体流程
- 首先随机选择K个点作为K个大类各自的中心点。
- 对于每个item,通过计算,找出离这个item最近的大类的中心点,把这个item分到这个大类中。
- 计算每个大类中当前的item的每一维特征的算术平均数,得到一个新的中心点。
- 重复2、3步骤,直到收敛(即中心点不再变化)
举个栗子,此处盗图,侵联删
初始点
第一次聚类
第二次聚类
第三次聚类
也有蛋疼的情况
如果初始中心点这么选
那么很悲剧