Bagging和Boosting的思想
集成学习是通过构建并结合多个个体学习器来完成学习任务,个体学习学习器通常由一个现有的学习算法从训练数据产生,同质个体学习器的应用是最广泛的,一般常说的集成学习的方法都是指的同质个体学习器。
同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类第一类是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法第二类是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是bagging和随机森林(Random Forest)系列算法。
Boosting算法原理示意图:
Boosting算法原理:
1.Boosting算法的工作机制是首先从训练集用初始权重训练出十个弱学习器1;
2.根据弱学习的学习误差率表现来更新训练样本的权重,使之前弱学习器1学习误差率高
的训练样本点的权重变高而这些误差率高的点在后面的弱学习器2中得到更多的重视;3.然后基于调整权重后的训练集来训练弱学习器2;
4.如此重复进行,直到弱学习器数达到事先指定的数日T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。
Bagging算法原理示意图:
Bagging算法原理:
bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样,我们就可以得到T个采样集,对于这T个采样集,我们可以分别独立的训练出T个弱学习器,再对这T个弱学习器通过集合策略来得到最终的强学习器。