canopy算法流程_Canopy算法聚类

最新推荐文章于 2024-03-08 23:06:38 发布

诗遥一妈

最新推荐文章于 2024-03-08 23:06:38 发布

阅读量2.4k

点赞数 2

文章标签： canopy算法流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35244067/article/details/112810613

版权

Canopy一般用在Kmeans之前的粗聚类。考虑到Kmeans在使用上必须要确定K的大小，而往往数据集预先不能确定K的值大小的，这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因，选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。

一、canopy算法的优缺点

Canopy的优点：

1、Kmeans对噪声抗干扰较弱，通过Canopy对比较小的NumPoint的Cluster直接去掉有利于抗干扰。

2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。

3、只是针对每个Canopy的内容做Kmeans聚类，减少相似计算的数量。

Canopy的缺点：算法中 T1、T2(T2 < T1) 的确定问题 (在并行计算上Maper的T1、T2 可以和Raduce的T1、T2不同)

二、canopy聚类过程

while D is not empty

select element d from D to initialize canopy c

remove d from D

Loop through remaining elements in D

if distance between d_i and c < T1 : add element to the canopy c

if distance between d_i and c < T2 : remove element from D

end

add canopy c to the list of canopies C

end

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
canopy算法流程_Canopy算法聚类

Canopy一般用在Kmeans之前的粗聚类。考虑到Kmeans在使用上必须要确定K的大小，而往往数据集预先不能确定K的值大小的，这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因，选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。一、canopy算法的优缺点Canopy的优点：1、Kmeans对噪声抗干扰较弱...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。