随机森林算法梳理 任务一

集成学习中的随机森林算法是一种强大的机器学习方法,它结合多个决策树以提高预测准确性和防止过拟合。本文介绍了随机森林的基本思想,包括弱分类器、个体学习器、Bagging与Boosting策略,以及随机森林的构建和优缺点。此外,还探讨了在sklearn库中使用RandomForestClassifier和RandomForestRegressor的参数设置,并列举了其在回归和分类问题上的应用。
摘要由CSDN通过智能技术生成
  1. 集成学习概念
    集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。
    弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error
    rate < 0.5);
  2. 个体学习器概念
    单个独立的基学习器
  3. boosting bagging
    Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数
    据集上通过有放回的抽样的方式,重新选择出S个新数据集来分别训练S个分类器
    的集成技术。也就是说这些模型的训练数据中允许存在重复数据
    提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它
    每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预
    测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient
    boosting)
  4. 结合策略(平均法,投票法,学习法)
  5. 随机森林思想
    原理同bagging,基于信息熵/信息增益来做决策
  6. 随机森林的推广
    Extra Tree
    Totally Random Trees Embedding(TRTE)
    Isolation Forest
  7. 优缺点
    RF的主要优点:
    由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高
    的训练性能;
    可以给出各个特征的重要性列表
    由于存在随机抽样,训练出来的模型方差小,泛化能力强
    RF的主要缺点:
    在某些噪音比较大的特征上,RF模型容易陷入过拟合
  8. skl
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值