算法面试必备-----集成学习

最新推荐文章于 2024-04-04 10:09:29 发布

Avery123123

最新推荐文章于 2024-04-04 10:09:29 发布

阅读量229

点赞数

分类专栏：算法岗面试笔试准备

本文链接：https://blog.csdn.net/Avery123123/article/details/106387777

版权

算法岗面试笔试准备专栏收录该内容

32 篇文章 12 订阅

订阅专栏

算法面试必备-----集成学习

算法面试必备-----集成学习

算法面试必备-----集成学习

集成学习概念

集成学习的分类

Boosting

在这里插入图片描述

Bagging

在这里插入图片描述

Bagging和Boosting的区别

Bagging和Boosting的区别：

1）样本选择上：
Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：
Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：
Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：
Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

方差与偏差

概念

在这里插入图片描述

问题：为什么说Bagging减少方差，而Boosting减少偏差

在这里插入图片描述

问题：如何从减小方差和偏差的角度解释Boosting和Bagging的原理？

在这里插入图片描述

基分类器

常用的基分类器

在这里插入图片描述

问题：可否将随机森林中的基分类器，由决策树替换为线性分类器或者K-近邻？请解释为什么？

在这里插入图片描述

集成学习的步骤和例子

在这里插入图片描述

集成学习算法

Boosting类算法

Boosting提升算法

在这里插入图片描述

AdaBoost

原理理解

在这里插入图片描述

实例

在这里插入图片描述

算法流程

在这里插入图片描述

公式推导

在这里插入图片描述

对于提升方法，有两个问题需要回答：

每一轮如何改变训练数据的权值或概率分布？

提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。

如何将弱分类器组合成一个强分类器？

加权多数表决的方法，加大分类误差率小的弱分类器的权值，使其在表决中起较大作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。
不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这就是AdaBoost的一个特点。总的来说，AdaBoost算法的步骤为：更新训练数据权值->在此权值上训练弱分类器（策略为最小化分类误差率）->计算分类误差率（误分类样本的权值之和）->计算分类器系数（要用到上一步的分类误差率）->更新训练权值->构建基本分类器的线性组合，一直循环，直到基本分类器的线性组合没有误分类点。

Boosting Tree

提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。

提升树利用加法模型与前向分布算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步的优化是很简单的。但对一般损失函数而言，往往每一步优化并不那么容易。针对这一问题，有人提出了梯度提升算法。这是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升算法中的残差的近似值，拟合一个回归树。梯度提升决策树简称GBDT。

GBDT

GBDT主要由三个概念组成：

Regression Decistion Tree（即DT)
Gradient Boosting（即GB)，
Shrinkage (算法的一个重要演进分枝，目前大部分源码都按该版本实现）。
搞定这三个概念后就能明白GBDT是如何工作的。

GB 梯度迭代

Boosting，迭代，即通过迭代多棵树来共同决策。

这怎么实现呢？难道是每棵树独立训练一遍，比如A这个人，第一棵树认为是10岁，第二棵树认为是0岁，第三棵树认为是20岁，我们就取平均值10岁做最终结论？–当然不是！且不说这是投票方法并不是GBDT，只要训练集不变，独立训练三次的三棵树必定完全相同，这样做完全没有意义。

之前说过，GBDT是把所有树的结论累加起来做最终结论的，所以可以想到每棵树的结论并不是年龄本身，而是年龄的一个累加量。

GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。

比如A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习，如果第二棵树真的能把A分到6岁的叶子节点，那累加两棵树的结论就是A的真实年龄；如果第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里A的年龄就变成1岁，继续学。
这就是Gradient Boosting在GBDT中的意义。

DT 回归树

GBDT的核心在于累加所有树的结果作为最终结果，而分类树的结果显然是没办法累加的，所以GBDT中的树都是回归树，不是分类树，这点对理解GBDT相当重要。

Shrinkage

Shrinkage（缩减）的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树，它认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，通过多学几棵树弥补不足。

Shrinkage仍然以残差作为学习目标，但对于残差学习出来的结果，只累加一小部分（step*残差）逐步逼近目标，step一般都比较小，如0.01~0.001（注意该step非gradient的step），导致各个树的残差是渐变的而不是陡变的。

直觉上这也很好理解，不像直接用残差一步修复误差，而是只修复一点点，其实就是把大步切成了很多小步。本质上，Shrinkage为每棵树设置了一个weight，累加时要乘以这个weight，但和Gradient并没有关系。这个weight就是step。就像Adaboost一样，Shrinkage能减少过拟合发生也是经验证明的

GBDT算法流程

GBDT 如何选择特征？

gbdt选择特征的细节其实是想问你CART Tree生成的过程。
gbdt的弱分类器默认选择的是CART TREE。

CART TREE 生成的过程其实就是一个选择特征的过程。假设我们目前总共有 M 个特征。第一步我们需要从中选择出一个特征 j，做为二叉树的第一个节点。然后对特征 j 的值选择一个切分点 m. 一个样本的特征j的值如果小于m，则分为一类，如果大于m,则分为另外一类。如此便构建了CART 树的一个节点。其他节点的生成过程和这个是一样的。

GBDT如何用于分类

首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。
这里面的核心是因为GBDT 每轮的训练是在上一轮的训练的残差基础之上进行训练的。
这里的残差就是当前模型的负梯度值。这个要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的。残差相减是有意义的。而类别结果相减是无意义的，因此需要数值结果进行相减，所以使用CART 回归树。

具体分类任务

具体到分类这个任务上面来，我们假设样本 X 总共有 K类。来了一个样本 x，我们需要使用GBDT来判断 x 属于样本的哪一类。

第一步我们在训练的时候，是针对样本 X 每个可能的类都训练一个分类回归树。举例说明，目前样本有三类，也就是 K = 3。样本 x 属于第二类。那么针对该样本 x 的分类结果，其实我们可以用一个三维向量 [0,1,0] 来表示。0表示样本不属于该类，1表示样本属于该类。由于样本已经属于第二类了，所以第二类对应的向量维度为1，其他位置为0。

针对样本有三类的情况，我们实质上是在每轮的训练的时候是同时训练三颗树。第一颗树针对样本x的第一类，输入为（x,0）。第二颗树输入针对样本x 的第二类，输入为（x,1）。第三颗树针对样本x 的第三类，输入为（x，0）

在这里每颗树的训练过程其实就是就是我们之前已经提到过的CATR TREE 的生成过程。在此处我们参照之前的生成树的程序即可以就解出三颗树，以及三颗树对x 类别的预测值f1(x),f2(x),f3(x)。那么在此类训练中，我们仿照多分类的逻辑回归，使用softmax 来产生概率，则属于类别 1 的概率

在这里插入图片描述

XGBoost

算法原理

XGBoost原理

问题：XGBoost 与 GBDT的联系和区别有哪些？

在这里插入图片描述

Bagging类算法

随机森林

概述

随机森林是一种有监督学习算法。就像你所看到的它的名字一样，它创建了一个森林，并使它拥有某种方式随机性。所构建的“森林”是决策树的集成，大部分时候都是用“bagging”方法训练的。

简而言之：随机森林建立了多个决策树，并将它们合并在一起以获得更准确和稳定的预测。随机森林的一大优势在于它既可用于分类，也可用于回归问题，这两类问题恰好构成了当前的大多数机器学习系统所需要面对的。接下来，将探讨随机森林如何用于分类问题，因为分类有时被认为是机器学习的基石。下图，你可以看到两棵树的随机森林是什么样子的：
在这里插入图片描述
除了少数例外，随机森林分类器使用所有的决策树分类器以及bagging 分类器的超参数来控制整体结构。与其先构建bagging分类器，并将其传递给决策树分类器，您可以直接使用随机森林分类器类，这样对于决策树而言，更加方便和优化。要注意的是，回归问题同样有一个随机森林回归器与之相对应。

在这里插入图片描述
随机森林算法中树的增长会给模型带来额外的随机性。与决策树不同的是，每个节点被分割成最小化误差的最佳特征，在随机森林中我们选择随机选择的特征来构建最佳分割。因此，当您在随机森林中，仅考虑用于分割节点的随机子集，甚至可以通过在每个特征上使用随机阈值来使树更加随机，而不是如正常的决策树一样搜索最佳阈值。这个过程产生了广泛的多样性，通常可以得到更好的模型。