GBDT分类器和回归器的大部分参数都是相同的,除了损失函数的选项有些不同,因此下面我们统一说明各个参数的意义以及在什么情境下做什么调整方法。
一、GBDT的boosting框架参数
1.n_estimators:代表弱学习器的最大个数,即最多训练多少棵树。这个值过大导致过拟合,过小导致欠拟合.默认值为100.
2.learning_rate:每个弱学习器都有一个权重参数,默认值0.1,取值范围0-1。 learning_rate和n_estimators同时决定着模型的拟合效果,因此要同时调整,建议从一个小一点的学习率开始。
fn(x)=fn-1(x)+l_r*T(n,x)
#即本轮的学习器等于本轮以前的学习器加上学习率乘以本轮得到的弱学习器
复制代码
3.subsample:子采样比例,默认1.0,是不放回的采样,与随机森林的有放回采样不一样。如果为1.0,表示每轮采用全部数据生成决策树,容易过拟合,方差容易比较大。但是如果过小,容易造成高偏差,所以这个值需要这种,建议0.5-0.8之间。
4.init:初始学习器的值,在有一定先验知识的情况下可以自己设定,。但是一般不用。
5.loss:损失函数的选择,对于分类和回归是有区别的。
分类:可选项有{'deviance','exponential'},"devianc