机器学习-随机森林(randomForest)模型的优化策略

随机森林模型的优化主要有两个方面的策略:
1.特征选择
1)输入特征按照其重要性从高到底排序,其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出;
2)去除与输出变量相关性很小的特征;
3)在原有特征的基础上,添加新的特征,新特征可以是原有特征集的组合或划分,例如将year按season划分,将weekend和holiday组合为restday

2.参数优化
以python的sklearn.ensemble.RandomForestRegressor库为例,主要需要调节的参数为:
1)n_estimators:表示树的数量,通常随着树的数量的增加,test error会逐渐减小,当到达一定数目时,test error的变化变得很小,继续增大则test error反而会变大,出现过拟合现象,这时候就可以确定较为合理的树的数量;n_estimators的选择可通过GridSearchCV得到最优test error对应的树的数量。
2)max_features:表示基决策树的每个节点随机选择的最大特征数,传统决策树模型在选择特征时考虑所有可能的特征,而它降低了单个树的多样性,而由于随机森林基于集成学习思想的优点,减小max_features不仅会提升算法速度,也有可能降低测试误差,这也是RF模型在Bagging集成学习方法基础上的一个改进;对max_features的选择是逐一尝试,直到找到比较理想的值

  • 9
    点赞
  • 91
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值