提升树，bagging与随机森林

最新推荐文章于 2024-08-23 11:17:30 发布

changyuanchn

最新推荐文章于 2024-08-23 11:17:30 发布

阅读量2.4k

点赞数

分类专栏：机器学习机器学习专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/changyuanchn/article/details/81294037

版权

机器学习同时被 2 个专栏收录

21 篇文章 4 订阅

订阅专栏

机器学习专栏

21 篇文章 2 订阅

订阅专栏

提升树是一种以分类树或者回归树为基本分类器的提升方法。

对于分类树只需将adaboost算法中的基函数设置为二分类二叉树即可。

而回归树则是根据残差来训练下一个分类器的回归二叉树。下面主要介绍一下回归提升树的算法。

回归提升树

回忆一下，回归树就是将输入空间分割成 $M$ 个不相关的区域 $R_1,...,R_M$ ,即回归树为 $f(x) = \sum_{m=1}^{M} c_mI(x \in R_m) = \sum_{m=1}^{M}T(x,\theta_m)$

下面我们用前向分步算法推导下回归提升树，有：

$f(0) = 0$

$f_m(x) = f_{m-1}(x) + T(x,\theta_m)$

则 $\widehat{\theta_m} = arg min_{\theta_m} \sum^{N}_{i=1} L(y_i,f_{m-1}(x) +T(x;\theta_m))$

令损失函数为二次损失，则：

$L(y,f(x)) = (y-f(x)) = (y - f_{m-1}(x) - T(x;\theta_m))^2 = (\gamma - T(x;\theta_m))^2$

其中 $\gamma = y - f_{m-1}(x)$ ， $\gamma$ 为残差，拟合当前模型的残差。

回归提升树即用残差来拟合后续的分类器。

输入

训练数据 $D = \left \{ (x_1,y_1),...,(x_N,y_N) \right \}$

过程

$f(0) = 0$
对 $m=1:M$

$\gamma_{mi} = y_i - f_{m-1}(x_i)$
利用残差 $\gamma$ 拟合回归树 $T(x,\theta_m)$
更新 $f_m(x) = f_{m-1}(x) + T(x,\theta_m)$
得到提升树

输出

提升树 $f_M(x)$

梯度提升算法

上面的平方损失函数，利用上面的残差公式 $\gamma_{mi} = y_i - f_{m-1}(x_i)$ 可以很方便的进行优化，如果对于更一般的损失函数而言，上面的残差公式 $\gamma_{mi} = y_i - f_{m-1}(x_i)$ 就不适合了，因此这里引入梯度提升来计算残差

针对梯度提升，上面的算法有两个地方需要修改

一个是初始化：

$f(0) = argmin_c \sum_{i=1}^{N} L(y_i,c)$

一个是残差的计算，利用梯度提升公式计算：

$\gamma_{mi} = -[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m-1}(x)}$

bagging算法

上面的提升树算法我们利用了所有的训练数据，串行的的得到分类器，这种方法效率比较低下，无法并行操作，因此发明了bagging算法，可以并行的进行集成学习。

所谓的bagging算法，就是在训练数据中采样出m个训练样本的采样集，针对每个采样集训练一个基学习器，然后将这些基学习器组合生成最终的学习器。

对于分类任务，可以用简单投票的方式确定结果，对于回归任务，可以用平均值的方式得到最终的结果。

同时每次未被采样的数据还可以作为cross-validation的验证集。

bagging算法简单，并且可以并行，速度很快。由于采样集的样本不一致，因此天然的能够抗过拟合。但是对样本的数目要求一般比较高。

随机森林

树多的地方就是森林，因此随机森林就是以决策树作为基学习器的学习算法。

RF（Random Forest）是在以决策树为基学习器构建bagging的基础上，在决策树的训练过程中引入了随机属性的选择。

RF算法对决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后在子集中选择一个最优属性用于划分输入空间（一般大家都选择 $k = log_2 d$ ）。

由于RF算法既随机选择了训练样本集，又随机选择了属性集，因此RF算法中的基学习器的多样性不仅来自于样本的扰动，还来自于属性的扰动，因此有很强的泛化能力。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

changyuanchn CSDN认证博客专家 CSDN认证企业博客

码龄13年

85: 原创

9万+: 周排名

72万+: 总排名

74万+: 访问

: 等级

5188: 积分

396: 粉丝

345: 获赞

121: 评论

1587: 收藏

私信

关注

热门文章

分类专栏

最新评论

不相交集（The Disjoint Set ADT）
qklxdz: “我们可以另每一个根节点的数组数组元素表示数大小的赋值”应该错了，应该是负值
五大常用算法总结
weixin_46264209: 哈哈哈哈，那你点进去看了吗?人家只是引用作者的原话罢了
0/1背包问题之穷举解法
聪明的大羊: 我说我的答案怎怎么和作者的不一样哈哈哈 BCDEF val = 195
回溯算法（BackTracking）--八皇后问题
传发教主: 太nb了，等我去找一些好词来夸你
二项队列
Llllliurx: 这里是使用了二进制优化，通过这种方法强制让T1存在与否对应于1和0，这样就能使用二进制优化让T1，T2，Carry三个变量组成的八种情况分别用0-7表示

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。