9.4集成之美：AdaBoost

最新推荐文章于 2024-09-24 23:52:54 发布

Vivian_Congcong

最新推荐文章于 2024-09-24 23:52:54 发布

阅读量410

点赞数 5

分类专栏：数据挖掘笔记文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vivian_Congcong/article/details/135039699

版权

数据挖掘笔记专栏收录该内容

71 篇文章 0 订阅

订阅专栏

The Choice of a
- 十大算法之一的原因：有非常好的特性，可以从数学上证明很多东西
  - 例如，可以证明其（训练）误差的上界可以越来越小，趋近于0
  - 例如，我们通常会认为a是一个参数是需要手工调整的，但其实不是，a是可以推导出来的
- 思路：怎样能够推导出模型的训练误差的上界（upper bound），如果能把它表示出来，就能够进一步推导a怎么取能够使（误差）上界越来越小
- a原来是：1/2ln（1-错误率/错误率）
- Proof：
  - 第一步
    - 要表示模型误差，先看看第i个样本在第t+1时刻的权重，是一个连乘的关系，最初的时候所有样本的权重相同（m个样本就是1/m）
    - 往后的每一次就是后面的每个分式，它要么增加要么减少，取决于分式中的y和h（如果相等的话它的权重就减少，否则就增加），每一次都做一次调整，每个分式就是它调整的幅度
    - 所有的东西乘起来，就等于在最终的t+1时刻的相应值
    - 图中右侧，使用f表示这个求和，f是一个连续值（0.3、-0.5等）
    - 最终模型的输出H，其实就是在f外面加了一层sign函数（看结果是大于0还是小于0，即分类结果是+1还是-1）
    - [[ ]]：表示双括号中的表达式成立的话，其输出结果是1，否则输出结果是0
    - 图片最后一行不等式：左侧为模型的错误率（误差），即表示出了模型误差的上界（下一步看看不等式右侧如何处理）
  - 第二步
    - 所有样本的权重在任何一个generation加起来等于1
    - 最小化Z就可以最小化模型的训练误差上界（将上界和算法中的某一个变量联系起来）
    - 问题：如何最小化
    - 解决：使用了一个近似的方法，因为模型训练时是一个一个训练的，不可能同时优化50个Z，实际上是用了一种最速下降方法（或者说是一种贪婪算法），每次就把当前的Z最小化
    - 思考：
      - 如果当前的训练集当中，很多样本都被分对了，那么其权重就会越来越小，即当前数据集中这些样本的权重都很小，所以加起来的Z也会很小
      - 也就是比较小的Z就代表了这些分类器分得都很对，否则情况就不太好，很多样本都被分类器分错了，所以这些权重越来越高
  - 第三步（a值）
    - 分两种情况后，求导
    - D · P（y ! = h）的求和就是误差
    - 当a为求出的式子时（有解析解），可以最小化Z，从而可以最小化模型训练误差的上界
Error Bounds（误差范围）
- 定义r便于计算
- 观察：模型误差的上界是由很多很多的0、1之间的数乘起来的，乘得越多，数值越小，越来越趋近于0
Summary of AdaBoost

Vivian_Congcong

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Vivian_Congcong CSDN认证博客专家 CSDN认证企业博客

码龄7年

72: 原创

38万+: 周排名

28万+: 总排名

3万+: 访问

: 等级

1356: 积分

485: 粉丝

636: 获赞

11: 评论

645: 收藏

私信

关注

热门文章

分类专栏

数据挖掘笔记 71篇

最新评论

1.1整装待发
CSDN-Ada助手: 恭喜您写下了第一篇博客！标题“1.1整装待发”充满了期待和准备的意味，让人不禁想知道接下来的内容是什么。在您的博客创作道路上迈出了坚实的一步，这是值得庆贺的成就。接下来，我想为您提供一些建议。在创作博客的过程中，可以考虑展开对“整装待发”的含义解读，或者分享您的准备过程和期待。另外，您可以结合个人经历或观点，深入探讨相关话题，并提供一些有价值的见解和观点，这将更加吸引读者的注意力。请记住，博客创作是一个不断学习和成长的过程。保持谦虚的心态，继续探索和尝试新的创作方式，相信您的博客将会越来越受到读者的欢迎和关注。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
1.2学而不思则罔
CSDN-Ada助手: 非常棒的博客！你对学习资源的介绍相当详细，让我对如何获取最新动态和了解学术大牛的研究方向有了更清晰的认识。此外，你还提到了一些互联网资源，如Google scholar和UCI，这些都是非常重要的工具。不过，在你的博文中，我想补充一些扩展知识和技能。对于机器学习领域来说，了解Python编程语言是非常重要的，它有很多强大的机器学习库，如Scikit-learn和TensorFlow。此外，统计学和线性代数也是机器学习的基础，熟悉这些概念将有助于更好地理解算法和模型。再次感谢你的分享，期待你继续创作！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
1.3知行合一
CSDN-Ada助手: 恭喜你写了第三篇博客，“1.3知行合一”，这个主题很有深度，也很有启发性。希望你能继续保持创作的热情和动力，不断分享你的思考和体会。或许下一步可以尝试结合实际案例或者个人经历，更具体地阐述知行合一的重要性和实践方法。期待你更多的精彩内容，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
1.4从数据到知识
CSDN-Ada助手: 恭喜您在博客上发布了新的一篇文章！标题“1.4从数据到知识”听起来非常有趣，我很期待阅读您的新观点和见解。对于下一步的创作建议，我建议您可以考虑添加一些实际案例或者个人经历来支持您的观点，这样可以让读者更容易理解和接受您的观点。继续保持创作，期待您更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
1.6聚类及其他数据挖掘问题
CSDN-Ada助手: 恭喜您撰写了关于聚类及其他数据挖掘问题的博客，内容丰富而深入，对数据挖掘领域的探索和分享让人印象深刻。接下来，或许可以考虑结合实际案例，分析不同数据挖掘方法在解决实际问题中的应用效果，这样的内容可能会更具有实用性和可操作性。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。