数据分析面试【机器学习】总结之-----Boosting和AdaBoost(集成学习)常见面试题整理

最新推荐文章于 2024-04-17 05:10:02 发布

天阑的芋头

最新推荐文章于 2024-04-17 05:10:02 发布

阅读量993

点赞数 1

分类专栏： # 机器学习文章标签：集成学习 adaboost算法机器学习面试

本文链接：https://blog.csdn.net/qq_34069667/article/details/107861869

版权

阅读之前看这里????：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.集成学习2.Boosting和AdaBoost3.Adaboost 算法详解3.1Adaboost 步骤概览3.2简述权值更新方法3.3 训练过程中，每轮训练一直存在分类错误的问题，整个Adaboost却能快

摘要由CSDN通过智能技术生成

阅读之前看这里👉：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。
博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。

1.集成学习

集成学习（ensemble learning）通过构建并结合多个学习器（learner）来完成学习任务，通常可获得比单一学习器更良好的泛化性能（特别是在集成弱学习器（weak learner）时）。

目前集成学习主要分为2大类：
一类是以bagging、Random Forest等算法为代表的，各个学习器之间相互独立、可同时生成的并行化方法；
一类是以boosting、Adaboost等算法为代表的，个体学习器是串行序列化生成的、具有依赖关系，它试图不断增强单个学习器的学习能力。

2.Boosting和AdaBoost

Boosting是一族可将弱学习提升为强学习的算法，这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续获得更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

Boosting族算法最著名的代表是AdaBoost。

3.Adaboost 算法详解

3.1Adaboost 步骤概览

① 初始化训练样本的权值分布，每个训练样本的权值应该相等（如果一共有N个样本，则每个样本的权值为1/N)

② 依次构造训练集并训练弱分类器。如果一个样本被准确分类，那么它的权值在下一个训练集中就会降低；相反，如果它被分类错误，那么它在下个训练集中的权值就会提高。权值更新过后的训练集会用于训练下一个分类器。

③ 将训练好的弱分类器集成为一个强分类器，误差率小的弱分类器会在最终的强分类器里占据更大的权重，否则较小。

3.2简述权值更新方法

（1）初始化权值分布；

（2）找到误差最小的弱分类器；

（3）计算弱分类器的权值；

（4）更新下一轮样本的权值分布；

（5）集合多个弱分类器成一个最终的强分类器。

3.3 训练过程中，每轮训练一直存在分类错误的问题，整个Adaboost却能快速收敛，为何？

每轮训练结束后，AdaBoost 会对样本的权重进行调整，调整的结果是越到后面被错误分类的样本权重会越高。而后面的分类器为了达到较低的带权分类误差，会把样本权重高的样本分类正确。这样造成的结果是，虽然每个弱分类器可能都有分错的样本，然而整个 AdaBoost 却能保证对每个样本进行正确分类，从而实现快速收敛。

3.4Adaboost 的优缺点？

优点：分类精度很高，能够基于泛化性能相当弱的的学习器构建出很强的集成，不容易发生过拟合。

缺点：对异常样本比较敏感，异常样本在迭代过程中会获得较高的权值，影响最终学习器的性能表现。

3.5AdaBoost 与 GBDT 对比有什么不同？

答：区别在于两者boosting的策略：Adaboost通过不断修改权重、不断加入弱分类器进行boosting；GBDT通过不断在负梯度方向上加入新的树进行boosting。

3.6 AdaBoost 需要解决哪两个问题，如何解决

答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。

第一个问题：提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。于是分类问题被一系列的弱分类器"分而治之"。
第二个问题：即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率较小的弱分类器的权值，使其在表决中起较大的作用；减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

4. GBDT

4.1 GBDT原理

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

首先gbdt 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。
在这里插入图片描述
gbdt通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

弱分类器一般会选择为CART TREE（也就是分类回归树）。由于上述高偏差和简单的要求每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。
模型最终可以描述为：

最低0.47元/天解锁文章

天阑的芋头

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析面试【机器学习】总结之-----Boosting和AdaBoost(集成学习)常见面试题整理

阅读之前看这里????：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.集成学习2.Boosting和AdaBoost3.Adaboost 算法详解3.1Adaboost 步骤概览3.2简述权值更新方法3.3 训练过程中，每轮训练一直存在分类错误的问题，整个Adaboost却能快
复制链接

扫一扫