集成学习(Ensemble Learning)简介
集成学习涉及多种技术的组合,这些技术允许称为基础学习者(或有时称为弱学习者)的多个机器学习模型合并其预测,并在给定各自的输入和输出的情况下输出单个最佳预测。集成学习旨在解决偏差和方差问题。通过组合许多模型,我们可以减少整体误差,同时保留各个模型的复杂性。正如我们前面所看到的,每个模型误差都有一定的下限,这与模型的复杂性有关。此外,由于初始条件,超参数和其他因素,我们提到相同的算法可以产生不同的模型。通过组合不同的不同模型,我们可以减少组的预期误差,而每个模型都保持不变。这是由于统计数据,而不是纯粹的学习。为了更好地证明这一点,让我们考虑11个基础学习者的分类,每个学习者的错误分类(错误)概率等于err = 0.15或15%。现在,我们要创建一个简单的集合。我们始终假设大多数基础学习者的输出是正确的答案。假设它们是多种多样的(统计上是不相关的),则大多数错误的可能性为0.26%
集成方法分为两大类或分类法:生成方法和非生成方法。非生成性方法侧重于组合一组预训练模型的预测。这些模型通常彼此独立地训练,并且集成算法指示如何将其预测合并。基本分类器不受整体存在的事实的影响。
两种主要的非生成方法:投票(Voting)和堆叠(Stacking)。投票是指允许模型投票以产生单个答案的技术,类似于个人在全国大选中的投票方式。最受欢