原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。
其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。
- 书的购买链接
- 书的勘误,优化,源代码资源
获取全文PDF请查看:哪些成为了经典-引用次数最多的10篇机器学习文献
近40年来机器学习领域产生了数以万计的论文,并以每年上万篇的速度增长。但真正能够称为经典、经受住历史检验、能投入实际应用的并不多。本文整理了机器学习历史上出现的经典论文,按照被引用次数对它们进行了排序,分为top10,被引用次数超过2万,被引用次数超过1万,未来有潜力的文章4部分。它们已经或者在未来具有资格被写入机器学习、深度学习、人工智能的教科书,是一代又一代研究人员为我们留下的宝贵财富。需要说明的是,引用次数对近几年新出现的文章是不公平的,它们还处于高速增长期,但好酒就是好酒,随着时间的沉淀会越来越香。
引用次数最高的10篇文献
第1名-EM算法
Arthur P Dempster, Nan M Laird, Donald B Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the royal statistical society series b-methodological, 1976.
被引用次数:55989
令笔者惊讶的是排名第一的居然不是支持向量机,集成学习,深度学习,决策树等历史上赫赫有名的算法,而是EM。这是EM算法的原文,引用次数高达5万多!EM算法在很多版本的排名中都被称为机器学习的10大算法之一。它在数学上优美,实现起来也很简单,是求解含有隐变量的最大似然估计、最大后验概率估计的有力工具,在高斯混合模型,隐马尔可夫模型等问题上得到了成功的应用。在SIGAI之前的公众号文章“理解EM算法”中对其原理进行了详细的介绍。
第2名-logistic回归
David W Hosmer, Stanley Lemeshow. Applied logistic regression. Technometrics. 2000.
被引用次数:55234
代表了线性模型这一山头。这不是logistic回归的原文,logistic回归在这之前几十年就已经被提出,但这篇文献的引用次数却达到了,虽然它不是论文而是书的形式,但其引用次数比著名的PRML还要高。这也符合我们的直观认识,logistic回归虽然简单,但却实用,在工程上,往往是越简单的东西越有用。
第3名-随机森林
Breiman, Leo. Random Forests. Machine Learning 45 (1), 5-32, 2001.
被引用次数:42608
代表了集成学习这一大山头。Breiman的随机森林,分类与回归树分列第3/4名。而随机森林的排名比AdaBoost算法要高。同样的,随机森林也很简单,但却好用。在SIGAI之前的公众号文章“随机森林概述”中对集成学习,bagging,随机森林进行了详细的介绍。
第4名-分类与回归树
Breiman, L., Friedman, J. Olshen, R. and Stone C. Classification and Regression Trees, Wadsworth, 1984.
被引用次数:39580
这是分类与回归树的原文