问题:如果你的梯度集成模型过拟合了,此时应该是增加学习率还是减少学习率?
在梯度提升模型中,学习率本质上是误分类样本的权重;如果要减少过拟合,就要减少对错误分类的关注;
此处使用极限思维,学习率为0,那么就只有一棵树,错误分类的实例均不考虑;
输出验证集与训练集的结果:
改变学习率:
输出结果:如下所示:
降低了学习率,减少了过拟合,泛化性能提升
个人理解:
学习率与1的差值绝对值越大,正则化强度越强,方差越小;差值绝对值越小,偏差越小,方差越大;
从另外的角度而言,每棵树都学习了一些特征,树越多就说明需要越多的特征来预测;换句话说,树越多一定是泛化能力更强;不依赖于其中某棵树;稳定性更好;如果过拟合了,就要想到需要使用更多的树;用另外一种想法就是:如果用一棵树训练好的模型与100棵树训练好的模型,在训练集效果100%,但哪个泛化能力更强呢?