集成学习-bagging及boosting_bagging 预测-CSDN博客

本文链接：https://blog.csdn.net/R18830287035/article/details/88417753

Bagging算法流程

1.从大小为n的原始数据集D中独立随机地抽取n’个数据（n’<=n），形成一个自助数据集；
2.重复上述过程，产生出多个独立的自助数据集；
3.利用每个自助数据集训练出一个“分量分类器”；
4.最终的分类结果由这些“分量分类器”各自的判别结果投票决定。

基本思想：对训练集有放回地抽取训练样例从而为每一个基本分类器都构造出一个跟训练集相当大小但各不相同的训练集，从而训练出不同的基本分类器；该算法是基于对训练集进行处理的集成方法中最简单、最直观的一种。
在这里插入图片描述
·Bagging要求“不稳定”的分类方法；比如：决策树，神经网络算法
·不稳定：数据集的小的变动能够使得分类结果的显著的变动。

Bagging算法的特点

·Bagging通过降低基分类器的方差改善了泛化误差。
·Bagging的性能依赖于基分类器的稳定性。
-如果基分类器是不稳定的（比如：决策树，神经网络算法。），装袋有助于降低训练数据的随机波动导致的误差；
-如果基分类器是稳定的（基分类器对训练数据集中的微小变化是鲁棒的），则集成分类器的误差主要是由基分类器的偏倚所引起的，bagging可能不会对基分类器的性能有明显改善。
-另外由于每一个样本被选中的概率相同，因此装袋并不侧重于训练数据集中的任何特定实例。因此对于噪声数据，装袋不太受过分拟合的影响。

Boosting引入

·Boosting是一个顺序过程，每个后续模型都会尝试纠正先前模型的错误。后续的模型依赖于之前的模型。
·接下来一起看看boosting的工作方式：

第一步：从原始数据集创建一个子集。
第二步：最初，所有数据点都具有相同的权重。
第三步：在此子集上创建基础模型。
第四步：该模型用于对整个数据集进行预测。
·第五步：使用实际值和预测值计算误差。
·第六步：预测错误的点获得更高的权重。
这里，三个错误分类的蓝色加号点将被赋予更高的权重）
第七步：创建另一个模型并对数据集进行预测（此模型尝试更正先前模型中的错误）。

在这里插入图片描述

·第八步：类似地，创建多个模型，每个模型校正先前模型的错误。
·第九步：最终模型（强学习器）是所有模型（弱学习器）的加权平均值。

在这里插入图片描述
·因此，boosting算法结合了许多弱学习器来形成一个强学习器。单个模型在整个数据集上表现不佳，但它们在数据集的某些部分上表现很好。因此，每个模型实际上提升了集成的整体性能。

Boosting算法步骤

·Boosting算法：首先给每一个训练样例赋予相同的权重，然后训练第一个基本分类器并用它来对训练集进行测试，对于那些分类错误的测试样例提高其权重（实际算法中是降低分类正确的样例的权重），然后用调整后的带权训练集训练第二个基本分类器，然后重复这个过程直到最后得到一个足够好的学习器。

在这里插入图片描述

·提升是一个迭代的过程，用于自适应地改变训练样本的分布，使得基分类器聚焦在那些很难分的样本上。不像装袋，提升给每一个训练样本赋予一个权值，而且可以在每一轮提升过程结束时自动地调整权值。训练样本的权值可以用于以下方面：

-（1）可以用作抽样分布，从原始数据集中提取出自主样本集；
-（2）基分类器可以使用权值学习有利于高权值样本的模型；

【Bagging算法和Boosting算法比较】

Bagging与Boosting的区别在于Bagging的训练集的选择是随机的，各轮训练集之间相互独立，而Boosting的训练集的选择不是独立的，各轮训练集的选择与前面各轮的学习结果有关；
Bagging的各个预测函数没有权重，而Boosting是有权重的；
Bagging的各个预测函数可以并行生成，而Boosting的各个预测函数一般只能顺序生成。
对于神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量时间开销。
另外，一些研究者发现，一般情况下，Bagging方法比较稳定，总是可以改善学习系统的性能；
而Boosting方法在有效时效果比Bagging还好，但在无效时却可能使学习系统的性能恶化。