机器学习实战笔记-7-AdaBoost元算法

AdaBoost(Adaptive boosting)元算法

元算法:将不同分类器组合起来的结果,也叫集成方法。

AdaBoost优点:泛化错误率,易编码,可应用在大部分分类器,无参数调整;缺点:对离群点敏感;适用于:数值型和标称型。

  • 自举汇聚法(Bootstrap aggregating,
    bagging方法):从原始数据集中随机选择1个样本,然后随机选择另一个样本替换这个样本。对原始数据集中进行S次这样的操作,分别得到S个新数据集。某个学习算法分别作用于新数据集得到S个分类器。用S个分类器进行分类得到的投票结果中最多的类别作为最终的分类结果。(bagging中各分类器权重是相等的。)

  • Boosting:boosting通过集中关注被已有分类器错分的那些数据获得新的分类器。其中分类器权重不相等,对应分类器在上一代迭代中的成功度\(\alpha\)

    • 每个样本的权重的向量D初始化:全为1/m

    • 在原数据集上训练出一个弱分类器并计算其错误率\(\varepsilon_{1}\)

    • 原数据集中分对的样本权重降低,分错的样本权重升高,计算累计加权的估计结果

    \[\ \alpha = \frac{1}{2}\ln{(\frac{1 - \varepsilon_{i}}{\varepsilon_{i}})}\]
    \[D_{i}^{\text{new}} = \left\{ \begin{matrix} \frac{D_{i}^{\text{old}}e^{- \alpha}}{Sum(D)},\ \ if\ \mathbf{x}_{i}\text{ is\ devided\ rightly} \\ \frac{D_{i}^{\text{old}}e^{\alpha}}{Sum(D)},\ \ if\ \mathbf{x}_{i}\text{ is\ devided\ wrongly} \\ \end{matrix} \right.\]

    • 重复b-c共?次,得到累计加权的估计结果,其符号即表示最终的分类结果。

建立弱分类器的伪代码:

将最小错误率minError设为$+ \infty$
  对数据集中的每一个特征(第一层循环):
    对每个步长(第二层循环):
      对每个不等号(第三层循环):
        建立一棵单层决策树并利用加权数据集对他进行测试
        如果错误率低于minError,则将当前单层决策树设为最佳单层决策树
返回最佳单层决策树

AdaBoost算法的伪代码:

对每次迭代:
  找到最佳的单层决策树,将其加入到单层决策树数组
  计算$\alpha$,计算新的样本权重向量D
  **更新累计类别估计值**
  如果错误率等于0.0,退出循环

转载于:https://www.cnblogs.com/charleechan/p/11434753.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值