随机森林算法梳理

最新推荐文章于 2024-01-25 16:49:28 发布

serahimu

最新推荐文章于 2024-01-25 16:49:28 发布

阅读量820

点赞数

本文链接：https://blog.csdn.net/serahimu/article/details/89035846

版权

随机森林是一种集成学习方法，通过构建多个决策树并结合它们的预测结果来提高整体预测准确性。文章介绍了集成学习概念、个体学习器（如CART决策树）、boosting和bagging的区别，以及随机森林的结合策略、思想、推广、优缺点和sklearn参数。随机森林广泛应用于回归和分类任务，也可处理缺失值问题。

摘要由CSDN通过智能技术生成

随机森林算法梳理

1. 集成学习概念

集成学习是通过在数据上构建多个模型，通过一定的结合策略，集成所有模型的建模结果的方法。

2. 个体学习器概念

集成学习中，个体学习器是指单个的模型，常见的集成学习算法如随机森林中，个体学习器为CART决策树，其个体学习器为同一种类的。

目前来说，同质个体学习器的应用是最广泛的，一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是boosting系列算法，第二个是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging和随机森林（Random Forest）系列算法。下面就分别对这两类算法做一个概括总结。

3. boosting 和 bagging

在集成学习中，按照个体学习器之间是否存在依赖关系可以分为两类；第一类是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生产，代表算法是boosting系列算法；一类是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging算法。

boosting算法的工作机制是首先从训练集中用初始权重训练出一个弱学习器，根据弱学习器的误差率表现来更新新训练样本的权重，使得之前弱学习器误差率高的训练样本点的权重变高，这样误差率高的样本点在后面的学习器中会得到更多的

最低0.47元/天解锁文章

serahimu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
随机森林算法梳理

随机森林算法梳理1. 集成学习概念集成学习是通过在数据上构建多个模型，通过一定的结合策略，集成所有模型的建模结果的方法。2. 个体学习器概念集成学习中，个体学习器是指单个的模型，常见的集成学习算法如随机森林中，个体学习器为CART决策树，其个体学习器为同一种类的。目前来说，同质个体学习器的应用是最广泛的，一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是...
复制链接

扫一扫