随机森林算法梳理

最新推荐文章于 2024-06-19 15:37:05 发布

紫砂痕

最新推荐文章于 2024-06-19 15:37:05 发布

阅读量251

点赞数

分类专栏：机器学习决策树文章标签：决策树随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36047533/article/details/98785184

版权

机器学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

随机森林算法梳理

1. 个体学习与集成学习概念
2. boosting
3. bagging
4. 结合策略
5. 随机森林的思想
6. 随机森林的推广
7. 随机森林的优缺点
8.随机森林在sklearn中的参数解释
9.随机森林的应用场景
参考链接

1. 个体学习与集成学习概念

个体学习器有两类：一类是指所有学习器都是同质的，同一种类的，比如神经网络学习器；另一类是异质的，所有的个体学习器不全是一个种类的。比如一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器。
集成学习（Ensemble Learning） 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统(multi-classifier system) ，如下图，也就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。

一个成功的集成学习往往需要个体学习器具备多样性的特点：

个体学习器的模型类型异质，比如树模型和神经网络模型；
数据在不同个体学习器中的表现不一样，错误预测样例不一样。

在这里插入图片描述

2. boosting

boosting是
在这里插入图片描述

Boosting算法需要详细解释以下四个问题

1)如何计算学习误差率e？
2)如何得到弱学习器权重系数 $a$ ？
3)如何更新样本权重D?
4)使用何种结合策略？
Boosting 族算法最著名的代表是AdaBoost，比较容易理解的是基于"加性模
型" (additive model) ，即基学习器的线性组合。

在这里插入图片描述

3. bagging

Bagging的算法原理和 boosting不同，它的弱学习器之间没有依赖关系，可以并行生成，如下图所示：
在这里插入图片描述

4. 结合策略

集成学习在各个规模的数据集上都有很好的策略。
数据集大：划分成多个小数据集，学习多个模型进行组合
数据集小：利用Bootstrap方法进行抽样，得到多个数据集，分别训练多个模型再进行组合

4.1平均法/投票机制

在回归问题上用平均法，在分类问题上用投票法：如下图：

在这里插入图片描述

4.2 权值平均法/投票机制

在这里插入图片描述

4.3 Gating

在这里插入图片描述

在这里插入图片描述

4.4 stacking

在这里插入图片描述

4.5 多层神经网络模型作EM model

在这里插入图片描述

在这里插入图片描述

这个EM model将输入X也添加至神经网络的第一层，作为gating

4.6 树模型作EM

在这里插入图片描述

5. 随机森林的思想

讲随机森林得从决策树开始讲起，鉴于决策树容易过拟合的缺点，随机森林采用多个决策树的投票机制（bagging）来改善决策树，也就是 “决策树+bagging=随机森林”。

我们假设随机森林使用了m棵决策树，那么就需要产生m个一定数量的样本集来训练每一棵树，如果用全样本去训练m棵决策树显然是不可取的，全样本训练忽视了局部样本的规律，对于模型的泛化能力是有害的。

产生n个样本的方法采用Bootstraping法，这是一种有放回的抽样方法，产生n个样本。而最终结果采用Bagging的策略来获得，即多数投票机制。

6. 随机森林的推广

7. 随机森林的优缺点

8.随机森林在sklearn中的参数解释

9.随机森林的应用场景

参考链接

https://blog.csdn.net/qq_38984677/article/details/88627572
https://blog.csdn.net/mao_xiao_feng/article/details/52728164
https://zhuanlan.zhihu.com/p/27689464

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。