一、个体与集成
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。下图显示出集成学习的一般结构:
集成学习一般结构:先产生一组个体学习器(也称基学习器),再用某种策略将它们结合起来。基学习器通常是由现有算法(如逻辑回归、决策树)从训练数据产生。基学习器是同种算法,例如都是决策树,也可以包含不同算法,例如决策树和神经网络。
集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的性能。因此基学习器往往也被称为弱学习器,尽管它们可能并不是很弱。
集成学习一定比基学习器好吗?在一般经验中,如果把好的东西和坏的东西掺在一起,得到的是中等的东西。那集成学习怎样才能获得比基学习器好的结果呢?一般情况下:要获得好的集成效果,基学习器应”好而不同“,具体地,每个基学习器的分类准确率应超过50%,并且要彼此不同,因为只有这样才能让集成学习捕捉到每个学习器独特的优点。
按照集成方法的不同,集成学习的类型分为:Bagging、Boosting和Stacking。
二、Bagging
Bagging全称Boostrap AGGregatING,