监督学习——集成方法

目录

Bagging

AdaBoost

数据权重

集合模型

slearn中的Adaboost

超参数

相关学习资源


Bagging

自助聚集(bootstrap aggregation )。将数据分成很多的子集,然后随机选取一些,用简单的模型去训练,再选择一些数据用另外一个简单的模型去训练……最后将所有的简单模型连接起来,连接的方式可以用投票的方式等,最后完成所有数据的训练。

AdaBoost

自适应增强算法。第一次分类,分完之后惩罚那些错误的点,然后增加被惩罚点的大小,

 

数据权重

小例子:最开始左右点的权重是1,第一次分类,分类正确的点总权重是7,错误的是3,按照50:50的比例,将错误的点的权重变成7/3;第二次分类 ,正确的是11,错误的是3,错误的点的权重变成11/3。

权重公式:weight = ln\left ( \frac{accuracy}{ 1 - accuracy} \right ),这个公式可以变形,就是:正确的点 / 错误的点,然后再取对数。

如下图这种极端模型,几乎不可能发生,没什么可担心的,但是为了一致性检查,仍然有必要,来分如下这种极端案例。

 

 

集合模型

下图的做法,把右侧的三张图放到左侧图片中,对应的位置天上数字,图与图之间用加班做运算。

slearn中的Adaboost

>>> from sklearn.ensemble import AdaBoostClassifier
>>> model = AdaBoostClassifier()
>>> model.fit(x_train, y_train)
>>> model.predict(x_test)

超参数

当我们定义模型时,我们可以确定超参数。在实际操作中,最常见的超参数为:

  • base_estimator: 弱学习器使用的模型(切勿忘记导入该模型)。
  • n_estimators: 使用的弱学习器的最大数量。

比如在下面的例子中,我们定义了一个模型,它使用 max_depth 为 2 的决策树作为弱学习器,并且它允许的弱学习器的最大数量为 4。

>>> from sklearn.tree import DecisionTreeClassifier
>>> model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4)

相关学习资源

AdaBoost 的优秀资源:

  • 这是一篇由 Freund 和 Schapire 合著的原始论文
  • 由 Freund 和 Schapire 合著的关于Adaboost几项实验的后续论文
  • 来自 Schapire 很棒的教程
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

laboirousbee

你的鼓励是我创作的动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值