聚类方法总结

最新推荐文章于 2024-09-11 17:28:11 发布

Lonely_freedom

最新推荐文章于 2024-09-11 17:28:11 发布

阅读量309

点赞数

分类专栏：机器学习文章标签：聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lonely_freedom/article/details/106624609

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

定义：

根据待分类模式特征的相似或相异程度将数据样本进行分组。目的是用于知识发现而不是用于预测。

分类：

主要分为：层次化聚类，划分式聚类，基于密度的聚类和基于网格的聚类。

基于划分

k-means

优势：(1) 时间复杂度与数据集大小呈线性关系，(2) 它收敛于局部最优解

缺点：(1)传统的 K-means 使用欧氏距离，仅适用于球形数据，(2) 对噪声和孤立点较为敏感。（3）需要提前设定聚类的组数。

其他算法：K-medoid、K-modes 和K-prototypes

一篇论文通过改进的遗传算法优化k-means，可以优化中心点。（这样初始中心点就不是随机选择而是根据数据集确定的）虽然能提升准确率，但该优化算法会增加很多计算量，降低效率，还是需要预先确定聚类数目。

层次聚类

不断地将数据进行聚合或分裂。重点是组间距离度量方法的选择。广泛使用的距离度量方法：最小距离、最大距离、平均值的距离、平均距离。

凝聚的层次聚类常见算法：Karypis 等提出的 CHAMELEON、Guha 等提出的 ROCK 和 CURE等

分裂的的层次聚类算法：Steinbach 等提出的 bisecting K-means、Boley提出的 PDDP 等

优点：不用预先指定聚类数目。能清晰表达组与组之间的层次关系。

缺点：在上一层次的组形成后，后续无法调整，即无法回溯。复杂度较高0(n2),处理大规模数据时效率低下。

基于密度的聚类

原理是把量化的网格空间进行聚类法，这个算法一般与数据集的大小没有关系，计算时间复杂度只取决于网格单元的数量。

优点：在于它可以大幅提高计算效率；

缺点：很难检测到斜侧边界的聚类，只能针对垂直或水平的聚类。

常见的基于网格的聚类算法有 STING、WaveCluster、CLIQUE 等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。