Canopy Clustering(Canopy聚类)


Canopy Clustering

Canopy算法是基于Kmeans算法的一种优化的聚类方法。

优化体现在:

1.前期能通过一些低性能的算法,快速的获取聚类中心

2.分好的每个聚类内部在进行k-means计算(不同聚类之间不进行相似度计算)

实现原理:(借助网上的一张截图)

225529_DXYY_1439326.jpg

算法步骤:

  (1 ) 将数据集向量化,然后放到list集合中,同时设定两个距离阈(yu)值:T1和T2

  (2)循环从list中去取一个,作为一个聚类中心,放到centerlist中,并从list中移除该点

  (3)循环从centerlist中 比较 与周围的点于阈(yu)值之间的关系,小于最小T1阈值,说明两个值相似,放到一个聚类中,并从list中移除;如果大于最大阈值T2,那么就单独作为一个聚类中心,并从list中移除;否则在T1和T2之间就不分别加到各个聚类中心去,但依然保留在list中

  (4)迭代2~3步直至list中元素为null,算法结束。


伪代码:(借鉴于炼数成金)

225705_c2jI_1439326.jpg



Canopy算法的优缺点:

1.不需要事先指定k值(即clustering的个数)

2.精度较低,但其速度上有很大的优势

3.前期可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步的“细”聚类




转载于:https://my.oschina.net/repine/blog/282975

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值