3-3 机器学习进阶-随机森林&GBDT&AdaBoost工作原理

1、随机森林和GBDT的区别?

2、在训练每颗子树时,该如何决定最优的随机特征个数?

3、随机森林算法和深度学习算法相比有哪些优势?

4、如果让你在GDBT算法和随机森林算法中选择一个来解决实际问题,你通常会做哪些考量?

5、简述AdaBoost算法的工作原理


1、随机森林和GBDT的区别?

随机森林GBDT
BaggingBoosting
训练时并行生成树结构训练时串行生成
异常值不敏感异常值敏感
对训练集平等看待对错误样本更多关注
减少方差提升性能减少偏差提升性能
融合方式为均值、投票所有基模型累加起来

2、在随机森林算法中,训练每颗子树时,该如何决定最优的随机特征个数?

这个题目没有标准答案,需要实际经验。一般来说通过超参数搜索以及交叉验证的方式,来找到最优解。超参数搜索在候选的超参数空间里面找寻最优解,交叉验证来评估训练得到的模型效果。

一般来说:

(1)较少的特征可以减少方差,但会增大单棵树的偏差(对数据拟合能力不够)

(2)增加特征数量,会减少单个模型的偏差,但是会导致方差变大

(3)最优特征数量还取决于特征本身所蕴含的信息量,以及特征数据的质量

(4)增加特征意味着,增加模型的训练时间


3、随机森林算法和深度学习算法相比有哪些优势?

(1)模型构建简单,训练和部署速度快,计算资源消耗少

(2)深度学习相对而言需要更多数据来使模型收敛

(3)类别特征处理相对容易,深度学习还需要one-hot

(4)可计算特征重要度,可解释性好些

(5)神经网络对异常值和噪声更为敏感


4、如果让你在GDBT算法和随机森林算法中选择一个来解决实际问题,你通常会做哪些考量?

(1)模型调优:随机森林主要超参数为随机选取特征的个数;GBDT有多个超参数需要调节(子树个数、树的深度、叶子节点中样本的最大数量)

(2)过拟合:随机森林不容易过拟合;GBDT模型之间依赖度高,容易过拟合

(3)模型复杂程度:随机森林通常训练几个较深的树模型;GBDT通常训练很多较浅的模型

(4)预测效果:大多数情况,经过充分调优的GBDT性能表现好于随机森林


5、简述AdaBoost算法的工作原理

通过基分类器的学习,调节错分样本的权重,最终将多个基分类器按权重融合

(1)初始化训练集权重,一开始各个样本权重相等

(2)训练基分类器

(3)通过基分类器结果,对训练集样本权重进行更新,错误样本增加权重

(4)重复(2)(3)得到多个基分类器,直到触发训练停止条件,如错误率小于阈值、达到最大迭代次数、达到时间限制等

(5)将多个基分类器,每个基分类器赋予权重,进行线性融合

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值