聚类发展历史、现状、未来趋势

1、发展历史
聚类算法的历史与有监督学习一样悠久。层次聚类算法出现于1963年[26],这是非常符合人的直观思维的算法,现在还在使用。它的一些实现方式,包括SLINK[27],CLINK[28]则诞生于1970年代。

k均值算法[25]可谓所有聚类算法中知名度最高的,其历史可以追溯到1967年,此后出现了大量的改进算法,也有大量成功的应用,是所有聚类算法中变种和改进型最多的。

大名鼎鼎的EM算法[29]诞生于1977年,它不光被用于聚类问题,还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。

Mean Shift算法[32]早在1995年就被用于聚类问题,和DBSCAN算法[30],OPTICS算法[31]一样,同属于基于密度的聚类算法。

谱聚类算法[33]是聚类算法家族中年轻的小伙伴,诞生于2000年左右,它将聚类问题转化为图切割问题,这一思想提出之后,出现了大量的改进算法。
在这里插入图片描述
2、现状
聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。
参考

  • 5
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值