集成学习中笔记 02 bagging的原理和案例分析
开源学习地址:datawhale
1.bagging基本原理
bagging,顾名思义,对众多基模型进行打包处理。bagging中最典型的便是随机森林,森林由众多树组成。这里的树便是bagging中的基模型(bagging最典型的基模型就是树结构)。
那么森林里的每棵树又是怎么生成的呢?
参考上面这幅图,每棵树训练的数据来源于对初始数据集的自助采样(boostrap)。这种采样方式是有放回的,也就意味着多次采样之后形成的数据集彼此之间具有一定的差异性。
上一节提到bagging的基本要求之一便是要保证基模型彼此之间巨大较大的差异性。当用于训练的数据集不同,训练出的基模型自然便具有了较大的差异性。利用这一点,对采样后的多个数据集分别训练,得到不同的决策树。
这里稍微提一下决策树的构造方法,具体可参考开源学习的内容。