聚类发展历史、现状、未来趋势

最新推荐文章于 2024-12-07 01:36:40 发布

席八

最新推荐文章于 2024-12-07 01:36:40 发布

阅读量1.3w

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_38239282/article/details/109301609

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了聚类算法的发展历史与现状。发展历史上，层次聚类算法1963年出现，k均值算法可追溯到1967年，EM算法诞生于1977年等。现状方面，用于大数据的聚类算法受关注，众多学者对不同聚类算法在大数据中的应用进行研究，如对比执行效率、提出新模型等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、发展历史
聚类算法的历史与有监督学习一样悠久。层次聚类算法出现于1963年[26]，这是非常符合人的直观思维的算法，现在还在使用。它的一些实现方式，包括SLINK[27]，CLINK[28]则诞生于1970年代。

k均值算法[25]可谓所有聚类算法中知名度最高的，其历史可以追溯到1967年，此后出现了大量的改进算法，也有大量成功的应用，是所有聚类算法中变种和改进型最多的。

大名鼎鼎的EM算法[29]诞生于1977年，它不光被用于聚类问题，还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。

Mean Shift算法[32]早在1995年就被用于聚类问题，和DBSCAN算法[30]，OPTICS算法[31]一样，同属于基于密度的聚类算法。

谱聚类算法[33]是聚类算法家族中年轻的小伙伴，诞生于2000年左右，它将聚类问题转化为图切割问题，这一思想提出之后，出现了大量的改进算法。
在这里插入图片描述
2、现状
聚类学习是最早被用于模式识别及数据挖掘任务的方法之一，并且被用来研究各种应用中的大数据库，因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类，该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法，在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架，并引入分布式数据预处理、协同聚类等方法，在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难，指出模糊技术在处理大数据上的有效性，研究抽样和增量在大数据上运行C-mean的作用。
参考