一张图看懂集成学习和随机森林

最新推荐文章于 2022-01-09 19:32:55 发布

王蒟蒻

最新推荐文章于 2022-01-09 19:32:55 发布

阅读量426

点赞数

分类专栏： # 机器学习实战书籍文章标签：机器学习 scikit-learn

本文链接：https://blog.csdn.net/weixin_41413511/article/details/118439947

版权

13 篇文章 1 订阅

订阅专栏

是否可以通过在多个服务器上并行来加速bagging集成的训练？pasting集成呢？boosting集成呢？随机森林或stacking 集成呢？

对于bagging集成来说，将其分布在多个服务器上能够有效加速训练过程，因为集成中的每个预测器都是独立工作的。对pasting 集成和随机森林也一样。但是boosting集成的每个预测器都是基于其前序的结果，因此训练过程必须是有序的，将其分布在多个服务器上毫无意义。对于stacking集成来说，某个指定层的预测器之间彼此独立，可以在多台服务器上并行训练，但是某一层的预测器只能在其前一层的预测器全部训练完成之后才能开始训练。

包外评估的好处是什么？

包括评估可以对bagging集成中的每个预测器使用其未经训练的实例进行评估。不需要额外的验证集，就可以对集成实施相当公正的评估。所以如果训练使用的实例越多，集成的性能可能略有提升。

如果你的梯度集成对训练集欠拟合，你是应该提升还是降低学习率？

关注