
一些问题
硬投票与软投票
是否可以通过在多个服务器上并行来加速bagging集成的训练?pasting集成呢?boosting集成呢?随机森林或stacking 集成呢?
- 对于bagging集成来说,将其分布在多个服务器上能够有效加速训练过程,因为集成中的每个预测器都是独立工作的。对pasting 集成和随机森林也一样。但是boosting集成的每个预测器都是基于其前序的结果,因此训练过程必须是有序的,将其分布在多个服务器上毫无意义。对于stacking集成来说,某个指定层的预测器之间彼此独立,可以在多台服务器上并行训练,但是某一层的预测器只能在其前一层的预测器全部训练完成之后才能开始训练。
包外评估的好处是什么?
- 包括评估可以对bagging集成中的每个预测器使用其未经训练的实例进行评估。不需要额外的验证集,就可以对集成实施相当公正的评估。所以如果训练使用的实例越多,集成的性能可能略有提升。
如果你的梯度集成对训练集欠拟合,你是应该提升还是降低学习率?
- 降低学习率,也可以通过提前停止法来寻找合适的预测器数量。
481

被折叠的 条评论
为什么被折叠?



