树模型-Adaboost

最新推荐文章于 2024-06-18 08:05:29 发布

myazi

最新推荐文章于 2024-06-18 08:05:29 发布

阅读量480

点赞数

分类专栏：机器学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010865478/article/details/82708409

版权

树模型

1、决策树 ID3，C4.5，CART

2、随机森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（异常检测）

三、Adaboost

一、Adaboost的Boosting理解

Adaboost是集成学习中Boosting方式的代表。多个基学习器其串行执行，下一个学习器基于上一个学习器的经验，通过调整样本的权重，使得上一个错分的样本在下一个分类器更受重视而达到不断提升的效果。Adaboost集成多个学习器的关键在两点：

1）设置基学习器的权重 $a_{m}=\frac{1}{2}log\frac{1-e_{m}}{e_{m}}$

2）调整样本的权重 $w_{m+1,i}=\frac{w_{m,i}}{Z_{m}}exp(-a_{m}y_{i}G_{m}(x_{i}))$

相对随机森林的Bootstrap Sampling重采样技术，可以看出Adaboost的权重调整是有目的性，是基于上一个学习器的经验，这也导致Adaboost在基学习器层是串行的。另外值得探讨的是权重为何如此设置？

Adaboost算法采用的基学习器是二值函数（二叉树）模型（当然Adaboost的核心是采用Boosting的思想），下面先来看Adaboost算法的整个流程，后面分析Adaboost在设计上巧妙之处

输入：训练集 $D = \left \{(x_1y_1),(x_2,y_2),…,(x_N,y_N) \right \}$ ，其中 $x_i \in \mathbb{R}^n$ ， $y_i \in \left \{+1,-1 \right \}$

输出：强学习器 $G(x)$

1）初始化权值： $D_1 = {w_{11},w_{12},…,w_{1N}}$ ， $w_{1i} = \frac{1}{N},i=1,2,…,N$

2）训练M个基学习器，对 $m=1,2...M$

a）使用权值分布 $D_{m}$ 与相应的基学习器算法得到第 $m$ 个基学习器 $G_{m}(x)：x_{i} \rightarrow y_{i}$

b）计算基学习器 $G_{m}(x)$ 的训练误差：

$e_m = P(G_m(x_i) \ne y_i) = \sum_i^Nw_{mi}I(G_m(x_i) \ne y_i)/\sum_{i}^Nw_{mi}$

c）计算基学习器的权重

如果 $e_{m}>\frac{1}{2}$ ： $a_{m}=0$ ，舍弃基学习器，样本权重更新与不更新一致

否则： $a_m = \frac{1}{2} \log \frac{1-e_m}{e_m}$

d）更新样本的权重：

$D_{m+1} = ({w_{m+1,1},....,w_{m+1,i},…,w_{m+1,N}})$

其中， $w_{m+1,i} = \frac{w_{mi}}{Z_m}\exp(-a_m y_i G_m(x_i))$

这里 $Z_{m}$ 是归一化因子： Z

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。