决策树使得每一个叶子节点都是在空间中的一个不相交的区域。在进行决策的时候,根据输入样本的特征值,一步一步往下,最终使得样本落入其中一个叶子节点。
在集成学习中,期望个体学习器应该“好而不同”,我们可以考虑使用相互有交叠的采样子集。
自助采样法:给定包含 m m m个样本的数据集,随机取出一个样本放入采样集,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过 m m m次采样,最终得到的包含 m m m个样本的采样集,初始数据集中有的样本在采样集多次出现,有的则从未出现。初始数据集中约有63.2%的样本出现在采样集。
Bagging是并行式集成学习方法最著名的代表。Bagging基本流程:基于自助采样法,采样出