集成学习-AdaBoost更新准则推导西瓜书

BIT_666

已于 2022-06-10 11:55:03 修改

阅读量2.3k

点赞数 1

分类专栏： Machine Learning 西瓜书机器学习数学原理文章标签： AdaBoost 损失函数西瓜书

于 2018-05-11 14:32:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BIT_666/article/details/80279844

版权

Machine Learning 同时被 3 个专栏收录

29 篇文章

订阅专栏

机器学习数学原理

15 篇文章

订阅专栏

6 篇文章

订阅专栏

本文深入解析AdaBoost算法的原理，包括损失函数的概念及其在AdaBoost中的应用，详细推导了分类器的重要性和样本权重更新规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.损失函数

上一篇文章简单介绍了集成学习和弱学习器的理论概率，最后给出了AdaBoost的伪代码与实现步骤，思路比较清晰，这篇文章主要针对分类器的重要性α与分布权重Dt的更新规则进行推导.推导之前先看一下常见的损失函数（损失函数在SVM（3）里介绍过，这里只给出损失函数形式）：

损失函数（loss function）用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型就更鲁棒。

2.AdabBoost的损失函数

AdaBoost算法有多种推导方式，最常见的是基于‘加性模型’，即基学习器的线性加权：

最小化损失函数（指数损失）：

其中f(x)为真实值，H(x)为真实值，二者均为二值型（-1,1），若H(x)能令损失函数最小化，则考虑上式对H(x)的偏导：

令导数为0，求解：

因此有：

这意味着sign(H(x))达到了贝叶斯最优错误率，也就是说指数损失函数最小化时，分类错误率也将最小.

3.分类器重要性α更新规则

推导前先回顾一下算法的伪代码：

开始论证~在AdaBoost中，第一个分类器h1是通过基学习算法用于初始数据分不而得，此后迭代生成ht和αt，当基分类器ht基于Dt产生后，该基分类器权重αt应使得αtht最小化损失函数.

当前基学习器分类错误的概率:

对损失函数求导：

令导数为0得:

恰好对应伪代码的第六步.

4.样本权重Dt更新规则

AdaBoost在获得Ht-1之后样本分布将进行调整，增加分类错误样本的权数，减少分类正确样本的权数，使下一轮基学习器ht能够纠正Ht-1的一些错误，理想的ht能够纠正Ht-1的全部错误，即最小化：

e^x在x=0处的泰勒展开：

将损失函数中ht(x)部分泰勒展开得（此处忽略了余项）：

因为f(x),h(x) ∈ {-1,1}

此时理想的基学习器h(t)应满足：

这里运用对偶将min转化为max，有点类似支持向量机求最优间隔的方法，而且在优化问题中加入常数不影响最终的结果.

这里Dt表示一个分布：

这里其实就大概了解了为什么要在更新Dt时下面引入zt去规范化分布.

根据数学期望定义，这里等价于：

这里注意求期望的x范围不是D，而是Dt.

由于f(x),h(x) ∈ {-1,1}：

将上式整理为1个式子,这里I(x)为示性函数：

则理想的ht：

由此可见理想的ht是在分布Dt下最小化分类误差，因此，弱分类器基于Dt来训练，且错误率应1小于50%（伪代码第五步），考虑Dt与Dt+1的关系：

这里对应伪代码第七步的权值更新.

总结：

通过这两篇文章的理论推导，AdaBoost的大致过程已经比较清晰了，证明步骤基本都是参考西瓜书，只是对其中一小部分加了一些小的注解，有问题欢迎大家交流~下一节将就实例python编码看一下针对具体的数据，集成学习是如何一步一步更新权值缩小泛化误差的.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BIT_666 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。