【学习笔记】集成学习

最新推荐文章于 2023-07-30 20:19:57 发布

Hung武

最新推荐文章于 2023-07-30 20:19:57 发布

阅读量121

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_31478771/article/details/90904497

版权

深度学习专栏收录该内容

27 篇文章 1 订阅

订阅专栏

概念

集成学习（Ensemble Learning）就是通过某种策略将多个模型集成起来，通过群体决策来提高决策准确率。当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。集成学习首要的问题是如何集成多个模型。比较常用的集成策略有直接平均、加权平均等。
对于 $M$ 个不同的模型 $f_{1}({x}), \cdots, f_{M}({x})$ ，其平均期望错误为 $\overline{R}(f)$ 。基于简单投票机制的集成模型 $F(\mathbf{x})=\frac{1}{M} \sum_{m=1}^{M} f_{m}(\mathbf{x})$ ， $F(\mathbf{x})$ 的期望错误在 $\frac{1}{M} \overline{\mathcal{R}}(f)$ 和 $\overline{R}(f)$ 之间。因此，为了得到更好的集成效果，要求每个模型之间具备一定的差异性。并且随着模型数量的增多，其错误率也会下降，并趋近于0。

常用的模型集成方法

为了建立一个集成学习方法，我们首先要选择待聚合的基础模型。在大多数情况下，我们会使用单一的基础学习算法，这样一来我们就有了以不同方式训练的同质弱学习器。然而，也有一些方法使用不同种类的基础学习算法，得到异质弱学习器。

Bagging类方法

Bagging类方法是通过随机构造训练样本、随机选择特征等方法来提高每个基模型的独立性。在并行化的方法中，我们单独拟合不同的学习器，因此可以同时训练它们，它的目标是生成比单个模型更鲁棒的集成模型。
在这里插入图片描述

Bagging自助聚合

Bagging（Bootstrap Aggregating）通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。通过不同模型的训练数据集的独立性来提高不同模型之间的独立性。我们在原始训练集上进行有放回的随机采样，得到 $M$ 比较小的训练集并训练 $M$ 个模型，然后通过投票的方法进行模型集成。Bagging 的重点在于获得一个方差比其组成部分更小的集成模型。

随机森林

随机森林（Random Forest）是在Bagging的基础上再引入了随机特征，进一步提高每个基模型之间的独立性。在随机森林中，每个基模型都是一棵决策树。

随机森林使用了CART（Classification And Regression Tree）决策树作为弱学习器。在使用决策树的基础上，随机森林对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的 $n$ 个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是随机森林通过随机选择节点上的一部分样本特征，这个数字小于 $n$ ，假设为 $n_{s u b}$ ，然后在这些随机选择的 $n_{s u b}$ 个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。　　
　　
如果 $n_{s u b}=n$ ，则此时随机森林的CART决策树和普通的CART决策树没有区别。 $n_{s u b}$ 越小，则模型约健壮，当然此时对于训练集的拟合程度会变差,也就是说 $n_{s u b}$ 越小，模型的方差会减小，但是偏差会增大。在实际案例中，一般会通过交叉验证调参获取一个合适的 $n_{s u b}$ 的值。

Boosting类方法

Boosting 类方法是按照一定的顺序来先后训练不同的基模型，每个模型都针对前序模型的错误进行专门训练。根据前序模型的结果，来调整训练训练样本的权重，从而增加不同基模型之间的差异性。直观地说，每个模型都把注意力集中在目前最难拟合的观测数据上。这样一来，在这个过程的最后，我们就获得了一个具有较低偏置的强学习器。Boosting类方法是一种非常强大的集成方法，只要基模型的准确率比随机猜测好，就可以通过集成方法来显著地提高集成模型的准确率。
在这里插入图片描述

AdaBoost

Boosting类集成模型的目标是学习一个加性模型 $F(\mathbf{x})=\sum_{m=1}^{M} \alpha_{m} f_{m}(\mathbf{x})$ 其中 $f_{m}({x})$ 为弱分类器， $\alpha_{m}$ 为弱分类器的集成权重， $F({x})$ 称为强分类器。

为了提高集成的效果，应当尽量使得每个弱分类器的差异尽可能大。一种有效的算法是用迭代的方法来学习每个弱分类器，即按照一定的顺序依次训练每个弱分类器。在学习了第 $m$ 个弱分类器后，增加其分错样本的权重，使得第 $m + 1$ 个弱分类器更关注于前面弱分类器分错的样本。这样增加每个弱分类器的差异，最终提升的集成分类器的准确率。AdaBoost算法是一种迭代式的训练算法，通过改变数据分布来提高弱分类器的差异。在每一轮训练中，增加分错样本的权重，减少分对样本的权重，从而得到一个新的数据分布。
在这里插入图片描述
假设我们面对的是一个二分类问题：数据集中有 $N$ 个观测数据。

在算法的起始阶段，所有的观测数据都拥有相同的权重 $w_{1}^{(n)} \leftarrow \frac{1}{N}, \forall n \in[1, N]$
将下面的步骤重复 $M$ 次：
（1）用当前观测数据的权重 $w_{m}^{(1)}, \dots, w_{m}^{(N)}$ 拟合可能的最佳弱模型 $f_{m}$
（2）计算更新系数的值，更新系数是弱学习器的某种标量化评估指标，它表示相对集成模型来说，该弱学习器的分量如何。 $\alpha_{m} \leftarrow \frac{1}{2} \log \frac{1-\epsilon_{m}}{\epsilon_{m}}$ 其中， $\epsilon_{m}$ 为弱分类器在数据集上的加权错误。
（3）通过添加新的弱学习器与其更新系数的乘积来更新强学习器。
（4）计算新观测数据的权重，该权重表示我们想在下一轮迭代中关注哪些观测数据（聚和模型预测错误的观测数据的权重增加，而正确预测的观测数据的权重减小）。 $w_{m+1}^{(n)} \leftarrow w_{m}^{(n)} \exp \left(-\alpha_{m} y^{(n)} f_{m}\left(\mathbf{x}^{(n)}\right)\right), \forall n \in[1, N]$

Stacking

Stacking与Bagging和Boosting主要存在两方面的差异。首先，Stacking通常考虑的是异质弱学习器，而Bagging和Boosting主要考虑的是同质弱学习器。其次，Stacking学习用元模型组合基础模型，而Bagging和Boosting则根据确定性算法组合弱学习器。

对于分类问题来说，我们可以选择 KNN分类器、Logistic回归和SVM作为弱学习器，并决定学习神经网络作为元模型。然后，神经网络将会把三个弱学习器的输出作为输入，并返回基于该输入的最终预测。
在这里插入图片描述
假设我们想要拟合由 $L$ 个弱学习器组成的Stacking集成模型。

将训练数据分为两组；
选择 $L$ 个弱学习器，用它们拟合第一组数据；
使用 $L$ 个学习器中的每个学习器对第二组数据中的观测数据进行预测；
在第二组数据上拟合元模型，使用弱学习器做出的预测作为输入。

将数据集一分为二是因为对用于训练弱学习器的数据的预测与元模型的训练不相关。因此，将数据集分成两部分的一个明显缺点是：只有一半的数据用于训练基础模型，另一半数据用于训练元模型。为了克服这种限制，我们可以使用k-折交叉训练方法：对于任意的观测数据，弱学习器的预测都是通过在 k-1 折数据（不包含已考虑的观测数据）上训练这些弱学习器的实例来完成的。换句话说，它会在 k-1 折数据上进行训练，从而对剩下的一折数据进行预测。迭代地重复这个过程，就可以得到对任何一折观测数据的预测结果。这样一来，我们就可以为数据集中的每个观测数据生成相关的预测，然后使用所有这些预测结果训练元模型。
在这里插入图片描述

Hung武

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】集成学习

概念集成学习（Ensemble Learning）就是通过某种策略将多个模型集成起来，通过群体决策来提高决策准确率。当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。集成学习首要的问题是如何集成多个模型。比较常用的集成策略有直接平均、加权平均等。对于MMM个不同的模型f1(x),⋯&ThinSpace;,fM(x)f_{1}({x}), \cdots, f_{M}({x})f...
复制链接

扫一扫