1、集成学习提出的动机和解决的问题
2、简述一下随机森林算法的原理
3、随机森林的随机性体现在哪里?
4、随机森林算法的优缺点
5、随机森林为什么不能用全样本去训练m棵决策树?
1、集成学习提出的动机和解决的问题
单个机器学习模型建模假设以及对数据的拟合能力都有一定局限,导致单一模型很难达到很高的精度。因此,考虑多个弱分类器有机融合。
(1)特征角度:单一模型对特征学习能力有限;集成学习各模型学习到不同的数据特征,融合后提升准确率降低错误率
(2)模型训练角度:单个模型容易陷入局部最优解,在既定空间内寻优;集成学习避免局部最优、不断优化基模型的有效探索空间,从而使得模型整体表现更好。
2、简述一下随机森林算法的原理
从数据集中随机抽样不同子集,构建多棵决策树,最终结果用bagging融合。
3、随机森林的随机性体现在哪里?
(1)每棵树训练样本的输入是随机抽取的数据集子集(有放回的采样)
(2)树中每个节点的分裂特征集合也是从所有特征中随机采样的
4、随机森林算法的优缺点
优点: 可并行计算和部署,提升准确率减少方差,降低过拟合,可以判断特征重要度及特征之间的相互影响,对少量缺失值较为友好,结构简单容易实现
缺点:对样本数据量有一定要求,当随机森林中的决策树数量很多时,训练时所需要的空间和时间会相对大一些,可解释性相比于单棵决策树会差一些。建模本身对偏差的优化有限。
5、随机森林为什么不能用全样本去训练m棵决策树?
随机森林构建的基分类器是一样的都是决策树,就是通过每棵树训练样本的扰动增加随机性提升泛化性、减少方差的。全样本训练不利于训练样本的扰动,基分类器的多样性减少、互相关性增加,不利于减少预测方差、不利于提升泛化性。