1、工作原理:
以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择(对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分)。
Bagging:基于自助采样法,从原始数据集中采样出S个含m个训练样本的采样集即新数据集,将某个学习算法分别作用于每个数据集得到S个分类器,选择分类器投票结果中最多的类别作为最后的分类结果。bagging的特点是各个弱学习器之间没有依赖关系,可以并行拟合。由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。
Boosting:通过集中关注被已有分类器错分的那些数据来获得新的分类器,分类的结果是基于所有分类器的加权求和结果的,分类器的权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。boosting的特点是各个弱学习器之间有依赖关系。
自助采样法:有放回采样,给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,经过m次随机采样操作,得到含m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现。
对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是 。不被采集到的概率为
。如果m次采样都没有被采集中的概率是