Ng机器学习系列补充：6、集成学习算法AdaBoost(Adaptive Boosting)

最新推荐文章于 2023-07-25 21:34:05 发布

mmc2015

最新推荐文章于 2023-07-25 21:34:05 发布

阅读量3.2k

点赞数 1

分类专栏：《Machine Learning，Andrew Ng》

本文链接：https://blog.csdn.net/mmc2015/article/details/42583191

版权

本文介绍了集成学习算法AdaBoost的起源、原理和应用。AdaBoost是一种迭代算法，通过组合多个弱分类器形成强分类器，尤其适用于决策树。文章讨论了AdaBoost如何通过调整错误样本的权重来提高分类准确性，并在人脸识别等领域有广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM，国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART，它们在数据挖掘领域都产生了极为深远的影响，这里对他们做一个简单介绍，仅作为对Ng机器学习教程的补充。

由于k-Means、SVM、EM、kNN、Naive Bayes在Ng的系列教程中都有涉及，所以此系列教程只涉及决策树算法C4.5、关联规则算法Apriori、网页排名算法PageRank、集成学习算法AdaBoost(Adaptive Boosting，自适应推进)、分类与回归树算法CART(Classification and Regression Trees)；另外会加上对神经网络的BP算法介绍，后续也会考虑介绍遗传算法等内容。

1）AdaBoost算法起源

2）AdaBoost算法详解

3）AdaBoost算法实例展示

4）AdaBoost算法相关讨论

5）AdaBoost算法在人脸识别中的应用

1）AdaBoost算法起源

boost 算法系列来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的，当然也会探讨针对可学习的问题的具体的学习算法。PAC 定义了学习算法的强弱：弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)，强学习算法---识别准确率很高并能在多项式时间内完成的学习算法。

PAC学习模型中，弱学习算法和强学习算法是等价的，等价是说，对于任意给定仅比随机猜测略好的弱学习算法，可以将其提升为强学习算法，而不必直接寻找很难获得的强学习算法。然而，这个看似简单的结论其实经过很多大牛的长时间努力才得到的，引用《统计学习那些事》中的一段话：

不过很长一段时间都没有一个切实可行的办法来实现这个理想。细节决定成败，再好的理论也需要有效的算法来执行。终于功夫不负有心人， Schapire在1996年提出一个有效的算法真正实现了这个夙愿，它的名字叫AdaBoost。AdaBoost把多个不同的决策树用一种非随机的方式组合起来，表现出惊人的性能！第一，把决策树的准确率大大提高，可以与SVM媲美。第二，速度快，且基本不用调参数。第三，几乎不Overfitting。我估计当时Breiman和Friedman肯定高兴坏了，因为眼看着他们提出的CART正在被SVM比下去的时候，AdaBoost让决策树起死回生！Breiman情不自禁地在他的论文里赞扬AdaBoost是最好的现货方法（off-the-shelf，即“拿下了就可以用”的意思）。

最低0.47元/天解锁文章