adaboost算法以及sklearn实现

Adaboost分类器

非集成的机器学习算法就像古代皇帝一样,一个人说了算;集成学习算法类似于现在的国会,需要听取在会所有人的意见。

Adaboost是一个集成学习算法,下面将会对算法进行拆解,以使我们明白Adaboost的内部原理。

Adboost算法核心内容可以划分为两个问题:

(1)如何构建弱分类器;

(2)如何组合这些弱分类器。

其中(1)又可以细化为:

1)使用哪种模型作为弱分类器的主算法?SVM还是DecisionTree,又或者是LogisticRegression;

2)如何使用原始数据?全部使用还是随机抽取又或者是分批使用;

3)到底应该训练出多少个弱分类器?

解决完这些问题,整个Adaboost算法就非常清晰了。

 

1.构建弱分类器

1.1 弱分类器的主算法

这个由设计者自己选择,Adboost算法不强制规定选择那种算法作为弱分类器的主算法。

1.2 原始数据集的使用

Adaboost算法会使用全部的训练集来训练弱分类器,并不会进行类似于随机抽取或者分批的操作;但是Adaboost会给每个训练数据添加一个权重系数。

目前只需要直到Adboost算法使用全部的训练集训练模型,并为每个数据增加了一个权重系数这两点就可以了。

1.3 弱分类器的个数

这个Adaboost算法中也没有强制规定,开发人员可以自己规定弱分类器个数,或者自己设置停止迭代的条件。

1.4 弱分类器训练过程

假设总训练集为D,训练集的样本个数为N,最多训练M个弱分类器;

m代表正准备训练的分类器的编号;

Wi

表示第i个弱分类器的权重列表,Wi,j

代表第i个弱分类器的第j个数据的权值,i,j都从0开始计

在这些条件下,弱分类器的训练过程如下:

1)初始化权重系数W并初始化m=0;

W0,j=1Nj∈[0,1,2⋯N−1]

2)若m大于M-1,停止弱分类器训练,准备组合弱分类器;

3)否则使用带权重的训练数据训练弱分类器,得到弱分类器Gm(x);

4)计算弱分类器Gm(x)

训练集上的错误率:

yˆm=Gm(x)

εm=Wm⋅(yˆm≠y)

5)计算相关系数:

αm=0.5log1−εmεm

6)更新权重:

Wm+1=Wm×exp(−αm×yˆ×y)

归一化权重

Wm+1=Wm+1/(∑Wm+1,j)

7)令m=m+1

,查是否达到迭代终止条件,否的话跳到第2)步继续;

8)达到条件的话终止迭代,准备组合弱分类器。

2.组合弱分类器

这个时候上一节中求的相关系数就用上了,最终的强分类器F(x)

F(x)=∑M−1i=0αiGi(X)

当F(x)>0,预测为正

 

sklearn.ensemble.AdaBoostClassifier()函数全称AdaBoost分类器。

class sklearn.ensemble.AdaBoostClassifier(base_estimator=None, n_estimators=50, 
										learning_rate=1.0, algorithm=’SAMME.R’, 
										random_state=None)

参数:

    base_estimator: 可选参数默认为DecisionTreeClassifier理论上可以选择任何一个分类或者回归学习器,不过需要支持样本权重。我们常用的一般是CART决策树或者神经网络MLP默认是决策树即AdaBoostClassifier默认使用CART分类树DecisionTreeClassifier,而AdaBoostRegressor默认使用CART回归树DecisionTreeRegressor。另外有一个要注意的点是,如果我们选择的AdaBoostClassifier算法是SAMME.R,则我们的弱分类学习器还需要支持概率预测,也就是在scikit-learn中弱分类学习器对应的预测方法除了predict还需要有predict_proba。


    algorithm: 可选参数,默认为SAMME.R。scikit-learn实现了两种Adaboost分类算法,SAMME和SAMME.R。两者的主要区别是弱学习器权重的度量,SAMME使用对样本集分类效果作为弱学习器权重,而SAMME.R使用了对样本集分类的预测概率大小来作为弱学习器权重。由于SAMME.R使用了概率度量的连续值,迭代一般比SAMME快,因此AdaBoostClassifier的默认算法algorithm的值也是SAMME.R。我们一般使用默认的SAMME.R就够了,但是要注意的是使用了SAMME.R, 则弱分类学习器参数base_estimator必须限制使用支持概率预测的分类器。SAMME算法则没有这个限制。
    n_estimators: 整数型,可选参数,默认为50。弱学习器的最大迭代次数,或者说最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。默认是50。在实际调参的过程中,我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。
    learning_rate: 浮点型,可选参数,默认为1.0。每个弱学习器的权重缩减系数,取值范围为0到1,对于同样的训练集拟合效果,较小的v意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说,可以从一个小一点的v开始调参,默认是1。
    random_state: 整数型,可选参数,默认为None。如果RandomState的实例,random_state是随机数生成器; 如果None,则随机数生成器是由np.random使用的RandomState实例。

还有其他参数:

例子

>>> from sklearn.ensemble import AdaBoostClassifier
>>> from sklearn.datasets import make_classification
>>> X, y = make_classification(n_samples=1000, n_features=4,
...                            n_informative=2, n_redundant=0,
...                            random_state=0, shuffle=False)
>>> clf = AdaBoostClassifier(n_estimators=100, random_state=0)
>>> clf.fit(X, y)  
AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None,
        learning_rate=1.0, n_estimators=100, random_state=0)
>>> clf.feature_importances_  
array([0.28..., 0.42..., 0.14..., 0.16...])
>>> clf.predict([[0, 0, 0, 0]])
array([1])
>>> clf.score(X, y)  
0.983...

参考博客https://blog.csdn.net/TeFuirnever/article/details/100276569

下面这个链接讲adaboost算法很详细

https://blog.csdn.net/TeFuirnever/article/details/100191706

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值