机器学习模型-随机森林(RandomForest)

随机森林(RandomForest):基于bagging集成的树模型

 

(一)基本原理

RF使用自助采样法(行采样)得到不同的训练子集,然后在子集上学习基学习器(CART树)。在建立CART树时,不是在所有特征中选择最优切分点,而是随机选择特征子集(列采样)然后在该子集中选择最优特征来分裂CART树。得到一系列基学习器后,综合它们的预测结果,作为集成模型的最终输出。

行采样、列采样的目的增加随机性,从而降低集成模型的方差(偏差有所提高) 【本质是防止模型过拟合】

(二)特点

(优点):可并行训练数据,在速度上有优势;可处理高维数据,无需特征选择

(缺点):在噪声较大的分类或者回归问题上容易过拟合

(三)重要参数

n_estimators(基学习器数目)

max_depth(树模型最大深度) + max_features(切分树时特征子集中特征数目)+min_samples_split(分割节点含有的最小样本数)

(四)代码实现和函数调用

  <

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值