随机森林算法梳理任务一

最新推荐文章于 2024-04-27 12:46:43 发布

20斤

最新推荐文章于 2024-04-27 12:46:43 发布

阅读量357

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/redavid/article/details/88001800

版权

集成学习中的随机森林算法是一种强大的机器学习方法，它结合多个决策树以提高预测准确性和防止过拟合。本文介绍了随机森林的基本思想，包括弱分类器、个体学习器、Bagging与Boosting策略，以及随机森林的构建和优缺点。此外，还探讨了在sklearn库中使用RandomForestClassifier和RandomForestRegressor的参数设置，并列举了其在回归和分类问题上的应用。

摘要由CSDN通过智能技术生成

                    
                        
                    
                    集成学习概念
 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。
 弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error
 rate < 0.5)；
个体学习器概念
 单个独立的基学习器
boosting bagging
 Bagging方法又叫做自举汇聚法(Bootstrap Aggregating)，思想是：在原始数
 据集上通过有放回的抽样的方式，重新选择出S个新数据集来分别训练S个分类器
 的集成技术。也就是说这些模型的训练数据中允许存在重复数据
 提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，它
 每一步产生弱预测模型(如决策树)，并加权累加到总模型中；如果每一步的弱预
 测模型的生成都是依据损失函数的梯度方式的，那么就称为梯度提升(Gradient
 boosting)
结合策略(平均法，投票法，学习法)
随机森林思想
 原理同bagging，基于信息熵/信息增益来做决策
随机森林的推广
 Extra Tree
 Totally Random Trees Embedding(TRTE)
 Isolation Forest
优缺点
 RF的主要优点：
 由于进行随机选择决策树划分特征列表，这样在样本维度比较高的时候，仍然具有比较高
 的训练性能；
 可以给出各个特征的重要性列表
 由于存在随机抽样，训练出来的模型方差小，泛化能力强
 RF的主要缺点：
 在某些噪音比较大的特征上，RF模型容易陷入过拟合
skl

                

最低0.47元/天解锁文章

20斤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林算法梳理任务一

集成学习概念集成学习的思想是将若干个学习器(分类器&amp;amp;回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate &amp;lt; 0.5)；个体学习器概念单个独立的基学习器boosting baggingBagging方法又叫做自举汇聚法(Bootstrap Aggregating)，思想是：在原始数据集...
复制链接

扫一扫