机器学习算法-随机森林RF

RF(分类/回归)1.原理简介2.算法流程3.优缺点4.超参数和调参5.问题1.原理简介:是一种bagging方法,使用CART决策树作为弱学习器,并行训练,数据采样随机,特征选择随机,所以可避免过拟合2.算法流程:(1)对训练集随机采样m次(2)用采样集训练决策树模型,在训练决策树节点时,随机选择一些特征,选择这些特征最好的特征作为划分左右子树的的划分标...
摘要由CSDN通过智能技术生成

RF(分类/回归)

1.原理简介

2.算法流程

3.优缺点

4.超参数和调参

5.问题

 

1.原理简介:是一种bagging方法,使用CART决策树作为弱学习器,并行训练,数据采样随机,特征选择随机,所以可避免过拟合

2.算法流程:

(1)对训练集随机采样m次

(2)用采样集训练决策树模型,在训练决策树节点时,随机选择一些特征,选择这些特征最好的特征作为划分左右子树的的划分标准

(3)如果是分类算法,最终类别为投票最多的,如果是回归算法,最后结果为加权平均的结果

3.优缺点

优点: 处理高维特征,并不用做特征选择;可处理离散/连续型数据;可看出特征重要性;并行化,速度快;不易过拟合;可视化便于分析

缺点:对少量/低维数据集分类效果不一定好

 

4.超参数

重要参数:n_estimators,max_depth,max_features,min_samples_split,min_samples_leaf

 

RF框架参数:n_estimators,oob_score,criteriion

(1)n_estimators:树数量/弱学习器最大迭代次数/最大的弱学习器个数;(一般选100)

太小容易欠拟合;太大计算量太大;

树数量越多,性能越好,预测越稳定,泛化能力越强,但计算速度越慢;实际上,先越大越好,在上下浮动。一般默认100

(2)oob_score:袋外分数;(推荐设置为True)

是否采用袋外样本来评估模型的好坏,默认是False,推荐设置为True,是一种RF交叉验证方法,袋外分数反映模型拟合后的泛化能力

(3)criteriion:CART树做划分时对特征的评价标准。(一般默认)

分类:基尼系数(默认),信息增益;

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值