集成学习（ensemble learning）之AdaBoost

最新推荐文章于 2023-03-31 16:11:01 发布

Lanbocsdn

最新推荐文章于 2023-03-31 16:11:01 发布

阅读量1.1k

点赞数

分类专栏：机器学习算法文章标签：算法集成学习

本文链接：https://blog.csdn.net/LanboCSDN/article/details/78401095

版权

个体学习器：通常由一个现有的学习算法从训练数据产生的，例如C4.5决策树算法等。
基学习器：如“决策树集成”中全是决策树，“神经网络集成”中全是神经网络，这样的集成是“同质”的（homogeneous）。同质集成中的个体学习器亦称“基学习器”（base learner），相应的学习算法称为“基学习算法”。

什么是集成学习？
先产生一组“个体学习器”（individual learner），再用某种策略将它们结合起来。
集成学习的结果通过投票法产生，即“少数服从多数”。要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”，即学习器间具有差异，

根据个体学习器的生成方式，目前的集成学习方法大概可以分为以下两类：
1、Boosting算法：在Boosting算法中，个体学习器之间存在强依赖关系，必须串行生成。
2、Bagging算法：在Bagging算法中，个体学习器之间不存在强依赖关系，可同时生成。

Boosting算法
提升方法（Boosting）是一种常见的统计学习方法。提升方法的理论基础是：强可学习与弱可学习是等价的。在概率近似正确（PAC）学习的框架下：
1、强可学习是一种概念（或一个类别），若存在一个多项式的学习算法能够学习它，并且正确率很高，那么称这个概念是强可学习的。
2、弱可学习是一种概念（或一个类别），若存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么称这个概念是弱可学习的。

对于分类问题而言，求一个比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）要容易得多。Boosting就是一种可以将弱学习器提升为强学习器的算法。

工作步骤如下：
- 先从初始训练集训练出一个基学习器
- 再根据基学习器的表现对训练样本权重进行调整，使得被先前的基学习器误判的训练样本在后续受到更多关注
- 然后基于调整后的样本权重来训练下一个基学习器
- 如此重复，直到基学习器数量达到给定的值M为止
- 最终将这M个基学习器进行加权组合得到集成学习器

AdaBoost算法
两个核心步骤：
1、权值调整：AdaBoost算法提高那些被前一轮基分类器错误分类样本的权值，而降低那些被正确分类样本的权值。从而使得那些没有得到正确分类的样本，由于权值的加大而受到后一轮基分类器的更大关注。
2、基分类器组合：AdaBoost采用加权多数表决的方法：
（1）加大分类误差率较小的弱分类器的权值，使得它在表决中起较大的作用。
（2）减小分类误差率较大的弱分类器的权值，使得它在表决中起较小的作用。

scikit-learn基于AdaBoost算法提供了两个模型：
AdaBoostClassifier用于分类问题
AdaBoostRegressor用于回归问题

AdaBoostClassifier分类器
ensemble.AdaBoostClassifier()

参数

base_estimator：是一个基础分类器。默认为DecisionTreeClassifier，该基础分类器必须支持带样本权重的学习
n_estimators：一个整数，指定基础分类器的数量（默认为50）。如果训练集已经完美地训练好了，可能算法会停止，此时基础分类器的数量少于该值
learning_rate：浮点数，默认为1.用于减少每一步的步长，防止步长太大而跨过了极值点。通常learning_rate越小，则需要的基础分类器数量会越多。
algorithm：一个字符串，指定算法，该算法用于多分类问题，默认为’SAMME.R’

属性