随机森林调参

       在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。

一、Bagging框架的参数:

1. n_estimators: 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。对Random Forest来说,增加“子模型数”(n_estimators)可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高,由于减少的是整体模型方差公式的第二项,故准确度的提高有一个上限。在实际应用中,可以以10为单位,考察取值范围在1至201的调参情况。

2. bootstrap默认True,是否有放回的采样。

3. oob_score 默认为False,即是否采用袋外样本来评估模型的好坏。有放回采样中大约36.8%的没有被采样到的数据,我们常常称之为袋外数据(Out Of Bag, 简称OOB),这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。个人推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。对单个模型的参数训练,我们知道可以用cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证,性能消耗小,但是效果不错。

4. criterion 即CART树做划分时对特征的评价标准,分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益entropy,是用来选择节点的最优特征和切分点的两个准则。回归RF对应的CART回归树默认是均方差mse,另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好的。

从上面可以看出, RF重要的框架参数比较少,主要需要关注的是 n_estimators,即RF最大的决策树个数。

二、决策树的参数:

1. max_features: RF划分时考虑的最大特征数。可以使用很多种类型的值,默认是"None",意味着划分时考虑所有的特征数;如果是"log2"意味着划分时最多考虑log2N个特征;如果是"sqrt"或者"auto"意味着划分时最多考虑N−−√N个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数,其中N为样本总特征数。一般来说,如果样本特征数不多,比如小于50,我们用默认的"None"就可以了,如果特征数非常多,我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数,以控制决策树的生成时间。

2. max_depth决策树最大深度。默认为"None",决策树在建立子树的时候不会限制子树的深度这样建树时,会使每一个叶节点只有一个类别,或是达到min_samples_split。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。

3. min_samples_split内部节点再划分所需最小样本数,默认2。这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2,如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。

4. min_samples_leaf:叶子节点最少样本数。 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。

5. min_weight_fraction_leaf叶子节点最小的样本权重和。这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。 默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。

6. max_leaf_nodes最大叶子节点数。通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制,具体的值可以通过交叉验证得到。

7. min_impurity_split节点划分最小不纯度。这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点,即为叶子节点 。一般不推荐改动默认值1e-7。

8. splitter: 随机选择属性"random"还是选择不纯度最大"best"的属性,建议用默认 best。

9. presort:是否对数据进行预分类,以加快拟合中最佳分裂点的发现。默认False,适用于大数据集。小数据集使用True,可以加快训练。是否预排序,预排序可以加速查找最佳分裂点,对于稀疏数据不管用,Bool,auto:非稀疏数据则预排序,若稀疏数据则不预排序.

10. 进行预测常用的几种方法:

  • predict_proba(x):给出带有概率值的结果。每个点在所有label(类别)的概率和为1. 
  • predict(x):直接给出预测结果。内部还是调用的predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。 
  • predict_log_proba(x):和predict_proba基本上一样,只是把结果给做了log()处理。

附:

logistic参数调优记录

1、先用默认参数预测结果

2、正则化参数选择,penalty,L1 or L2

3、优化算法选择器:solver,liblinear,lbfgs、newton-cg、sag

4、类型权重参数:class_weight,class_weight={0:0.9, 1:0.1} 
由于不同类别数量不同,因此调高权重,还有误分类代价很高情况等。

5、正则化参数C。

注:本文为转载文章,觉得有用、写的不错的记录下来,方便自己随时翻看。

  • 1
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林是一种集成学习算法,通过组合多个决策树来进行分类或回归。它可以减少过拟合的风险,但在某些情况下仍可能发生过拟合。为了减少过拟合问题,我们可以使用正则化技术来调整随机森林模型。 以下是一些正则化技术可以用于随机森林模型: 1. 剪枝:剪枝是一种常见的正则化技术,它通过修剪决策树的叶节点来减小模型的复杂度。这样可以防止决策树过于深入训练数据,从而减少过拟合的风险。 2. 最大特征数:在构建每个决策树时,可以限制每个节点可用的特征数量。这样可以减少决策树对于某些特征的依赖程度,从而降低过拟合的风险。 3. 自助采样:随机森林通过自助采样(bootstrap sampling)来构建每个决策树的训练集。自助采样允许重复选择部分样本,这样可以引入随机性,减少过拟合的风险。 4. 随机特征选择:在构建每个决策树时,可以随机选择一部分特征进行划分。这样可以增加随机性,降低模型对于某些特征的过度依赖,减少过拟合的风险。 5. 模型集成:随机森林通过集成多个决策树来进行预测。集成多个模型可以减少单个模型的过拟合风险,并提高整体模型的泛化能力。 这些正则化技术可以帮助减少随机森林模型的过拟合问题。根据具体情况,你可以选择适当的正则化方法来改善模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值