3-2 机器学习进阶-集成学习和随机森林

1、集成学习提出的动机和解决的问题

2、简述一下随机森林算法的原理

3、随机森林的随机性体现在哪里?

4、随机森林算法的优缺点

5、随机森林为什么不能用全样本去训练m棵决策树?


1、集成学习提出的动机和解决的问题

单个机器学习模型建模假设以及对数据的拟合能力都有一定局限,导致单一模型很难达到很高的精度。因此,考虑多个弱分类器有机融合。

(1)特征角度:单一模型对特征学习能力有限;集成学习各模型学习到不同的数据特征,融合后提升准确率降低错误率

(2)模型训练角度:单个模型容易陷入局部最优解,在既定空间内寻优;集成学习避免局部最优、不断优化基模型的有效探索空间,从而使得模型整体表现更好。


2、简述一下随机森林算法的原理

从数据集中随机抽样不同子集,构建多棵决策树,最终结果用bagging融合。

3、随机森林的随机性体现在哪里?

(1)每棵树训练样本的输入是随机抽取的数据集子集(有放回的采样)

(2)树中每个节点的分裂特征集合也是从所有特征中随机采样的

4、随机森林算法的优缺点

优点: 可并行计算和部署,提升准确率减少方差,降低过拟合,可以判断特征重要度及特征之间的相互影响,对少量缺失值较为友好,结构简单容易实现

缺点:对样本数据量有一定要求,当随机森林中的决策树数量很多时,训练时所需要的空间和时间会相对大一些,可解释性相比于单棵决策树会差一些。建模本身对偏差的优化有限。

5、随机森林为什么不能用全样本去训练m棵决策树?

随机森林构建的基分类器是一样的都是决策树,就是通过每棵树训练样本的扰动增加随机性提升泛化性、减少方差的。全样本训练不利于训练样本的扰动,基分类器的多样性减少、互相关性增加,不利于减少预测方差、不利于提升泛化性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值