机器学习（七）：集成方法（2）Boost

最新推荐文章于 2024-04-29 01:51:46 发布

wangyanphp

最新推荐文章于 2024-04-29 01:51:46 发布

阅读量3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyanphp/article/details/54881631

版权

本文深入探讨了机器学习中的集成方法，重点讲解了AdaBoost算法，包括如何确定数据权重、分类器权重以及AdaBoost的完整流程和性能。接着介绍了提升树的概念，并从最小化损失函数的角度解析了AdaBoost。最后，文章阐述了Gradient Boosting，将其与梯度下降法相联系，并展示了如何构建梯度提升树。

摘要由CSDN通过智能技术生成

Boost（提升）方法不同于bagging，基分类器是顺序训练的，每个基分类器使⽤数据集的⼀个加权形式进⾏训练，其中与每个数据点相关联的权系数依赖于前⼀个分类器的表现。特别地，被⼀个基分类器误分类的点在训练序列中的下⼀个分类器时会被赋予更⾼的权重。⼀旦所有的分类器都训练完毕，那么它们的预测就会通过加权投票的⽅法进⾏组合。

1. AdaBoost

假设我们在对一组数据进行分类的时候，

确定一个分类模型；
重点观察出现分类错误的数据，产生新的模型，与原模型组合以改进模型；
重复上述过程。

把这种思想运用到机器学习算法的设计中时，就是AdaBoost算法。那么有两个问题需要回答：

如何“重点”观察出现错误分类的数据
如何将模型组合起来

AdaBoost采用的是：

提高那些前一轮中被分类器错误分类样本的权值，降低那些被正确分类样本的权值；
采用加权多数表决的方法，即加大分类错误率低的分类器的权值，减小分错错误率高的分类器的权值。

1.1 如何确定下一轮中数据的权重？

假设第t轮，数据权重是 $w^{(i)}_t$ ，这一轮中学习到的模型是 $g_t$ ，那么其错误率是：

ϵ t = \sum m i = 1 w ( i ) t I ( y ( i ) \neq g t ( x ( i ) ) ) \sum m i = 1 w ( i ) t

$\epsilon_t=\frac {\sum_{i=1}^m w^{(i)}_t I(y^{(i)} \neq g_t(x^{(i)}))} {\sum_{i=1}^m w^{(i)}_t }$
我们定义参数

Δ = 1 - ϵ t ϵ t - - - - - \sqrt

$\Delta=\sqrt {\frac {1-\epsilon_t}{\epsilon_t}}$ 则有，如果

gt $g_t$ 的分类效果比随机猜测要好，那么必然有

ϵt<12,Δ>1 $\epsilon_t \lt \frac 12,\Delta>1$ ，那么我们可以这样更新数据的权重：

w (i) t + 1 \leftarrow w (i) t \cdot Δ

$w^{(i)}_{t+1}\leftarrow w^{(i)}_t \cdot\Delta$

w (i) t + 1 \leftarrow w (i) t / Δ

$w^{(i)}_{t+1}\leftarrow w^{(i)}_t /\Delta$
根据

Δ

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。