机器学习面试题-第十章集成学习（大厂必问，历经半年整理）

cc13186851239

已于 2022-02-15 19:58:29 修改

阅读量1.6k

点赞数 1

分类专栏： ML-Interview-Question 文章标签：算法大数据 python 机器学习

于 2021-03-04 21:18:30 首次发布

本文链接：https://blog.csdn.net/cc13186851239/article/details/114377987

版权

本文详细梳理了集成学习中的Boosting方法，特别是GBDT、AdaBoost和XGBoost，包括它们的原理、防止过拟合的策略、调参技巧以及与其它算法的对比。重点讨论了GBDT的特征选择、残差处理和优化方法，AdaBoost的学习精度提升，以及XGBoost的并行训练、处理缺失值和不平衡数据的方法。此外，还介绍了随机森林与GBDT的区别，以及不同集成学习算法之间的对比。

摘要由CSDN通过智能技术生成

老铁们✌，重要通知🙌！福利来了！！！😉

【计算机视觉复习流程剖析及面试题详解】
【深度学习算法最全面面试题（30 页）】
【机器学习算法最全面面试题（61页）】

10.集成学习

定义：通过结合多个学习器(例如同种算法但是参数不同，或者不同算法)，一般会获得比任意单个学习器都要好的性能，尤其是在这些学习器都是"弱学习器"的时候提升效果会很明显。
调参学习链接

10.1 Boosting(提升法)

可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升。
梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合
提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值。
提升的理论意义：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。

10.1.1 梯度提升(GBDT)

DT表示使用决策树作为基学习器，使用的CART树。
GBDT是迭代，但GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型，其弱学习器限定了只能使用CART回归树模型。残差=（实际值-预测值）
在这里插入图片描述

10.1.1.1 GBDT是训练过程如何选择特征？

GBDT使用基学习器是CART树，CART树是二叉树，每次使用yes or no进行特征选择，数值连续特征使用的最小均方误差，离散值使用的gini指数。在每次划分特征的时候会遍历所有可能的划分点找到最有的特征分裂点，这是用为什么gbdt会比rf慢的主要原因之一。

10.1.1.2 GBDT如何防止过拟合？由于gbdt是前向加法模型，前面的树往往起到决定性的作用，如何改进这个问题？

一般使用缩减因子对每棵树进行降权，可以使用带有dropout的GBDT算法，dart树，随机丢弃生成的决策树，然后再从剩下的决策树集中迭代优化提升树。
GBDT与Boosting区别较大，它的每一次计算都是为了减少上一次的残差，而为了消除残差，可以在残差减小的梯度方向上建立模型;
在GradientBoost中，每个新的模型的建立是为了使得之前的模型的残差往梯度下降的方法。

10.1.1.3 梯度提升的如何调参？‍

1.首先我们从步长(learning rate)和迭代次数(n_estimators)入手。
开始选择一个较小的步长来网格搜索最好的迭代次数。将步长初始值设置为0.1；
在这里插入图片描述

2.找到了一个合适的迭代次数，对决策树进行调参。首先对决策树最大深度max_depth和内部节点再划分所需最小样本数(min_samples_split)进行网格搜索。
在这里插入图片描述

再对min_samples_split和叶子节点最少样本数(min_samples_leaf)一起调参。
在这里插入图片描述

得出： {‘min_samples_leaf’: 60, ‘min_samples_split’: 1200},
3.对比最开始完全不调参的拟合效果，可见精确度稍有下降，主要原理是我们使用了0.8的子采样，20%的数据没有参与拟合。
需要再对最大特征数(max_features)进行网格搜索。
在这里插入图片描述

10.1.1.4 GBDT对标量特征要不要one-hot编码？

从效果的角度来讲，使用category特征和one-hot是等价的，所不同的是category特征的feature空间更小。微软在lightGBM的文档里也说了，category特征可以直接输入，不需要one-hot编码，准确度差不多，速度快8倍。而sklearn的tree方法在接口上不支持category输入，所以只能用one-hot编码。