https://zhuanlan.zhihu.com/p/56940098
调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。
对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。
对于决策树数量参数:
决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增大,对硬件的性能要求越高。决策树的数量一般在10-100,可以观察随着决策树数量的增加,误差下降不是很明显了,差不多就是这个参数了。
对于特征数量:
每个决策树用到的特征越多,效果肯定越好,但是对于整个随机森林模型来说,希望各个决策树之间保持一定的差异性。并且单个决策树的特征越多,消耗的性能越大。
常用选项:开根号;log2;百分之20

本文详细介绍了随机森林(RF)、梯度提升决策树(GBDT)的参数调优,包括决策树数量、特征选择、最大深度、最大叶子节点等,并提到了如何设置这些参数以避免过拟合。对于RF,决策树数量通常在10-100之间,而特征数量可选开根号或log2。在资源有限的情况下,可以使用预设的参数。GBDT与RF相似,但多了一个学习率参数。此外,还简要介绍了逻辑回归(LR)的相关参数。
最低0.47元/天 解锁文章
2072

被折叠的 条评论
为什么被折叠?



