3-3 机器学习进阶-随机森林&GBDT&AdaBoost工作原理

沉睡的小卡比兽

已于 2022-02-12 18:05:25 修改

阅读量439

点赞数

分类专栏： AI基础知识文章标签：随机森林机器学习集成学习 GDBT AdaBoost

于 2022-01-19 10:51:58 首次发布

本文链接：https://blog.csdn.net/chen10314/article/details/122573199

版权

26 篇文章 3 订阅

订阅专栏

1、随机森林和GBDT的区别？

2、在训练每颗子树时，该如何决定最优的随机特征个数？

3、随机森林算法和深度学习算法相比有哪些优势？

4、如果让你在GDBT算法和随机森林算法中选择一个来解决实际问题，你通常会做哪些考量？

5、简述AdaBoost算法的工作原理

这个题目没有标准答案，需要实际经验。一般来说通过超参数搜索以及交叉验证的方式，来找到最优解。超参数搜索在候选的超参数空间里面找寻最优解，交叉验证来评估训练得到的模型效果。

一般来说：

（1）较少的特征可以减少方差，但会增大单棵树的偏差（对数据拟合能力不够）

（2）增加特征数量，会减少单个模型的偏差，但是会导致方差变大

（3）最优特征数量还取决于特征本身所蕴含的信息量，以及特征数据的质量

（4）增加特征意味着，增加模型的训练时间

（1）模型构建简单，训练和部署速度快，计算资源消耗少

（2）深度学习相对而言需要更多数据来使模型收敛

（3）类别特征处理相对容易，深度学习还需要one-hot

（4）可计算特征重要度，可解释性好些

（5）神经网络对异常值和噪声更为敏感

（1）模型调优：随机森林主要超参数为随机选取特征的个数；GBDT有多个超参数需要调节（子树个数、树的深度、叶子节点中样本的最大数量）

（2）过拟合：随机森林不容易过拟合；GBDT模型之间依赖度高，容易过拟合

（3）模型复杂程度：随机森林通常训练几个较深的树模型；GBDT通常训练很多较浅的模型

（4）预测效果：大多数情况，经过充分调优的GBDT性能表现好于随机森林

通过基分类器的学习，调节错分样本的权重，最终将多个基分类器按权重融合

（1）初始化训练集权重，一开始各个样本权重相等

（2）训练基分类器

（3）通过基分类器结果，对训练集样本权重进行更新，错误样本增加权重

（4）重复（2）（3）得到多个基分类器，直到触发训练停止条件，如错误率小于阈值、达到最大迭代次数、达到时间限制等

（5）将多个基分类器，每个基分类器赋予权重，进行线性融合

关注

专栏目录