注:下有视频讲解,可供参考
演变过程
1. CART
2. 集成学习
集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务。 根据基学习器的生成方式,可以分为两大类:Bagging和Boosting。
Bagging Bagging
每次从原始数据集中有放回的随机抽样n个样本形成自助训练集,重复S次后得到S个新的训练集。对每个自助训练集应用弱分类器,这样就得到了S个弱分类器。最后将预测数据放在这S个弱分类器上计算,计算结果采用投票方式(分类问题)和简单求平均(回归问题)即可。
◆ 代表方法:RF随机森林
Boosting Boosting
先从初始训练集训练出一个基学习器;再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注;然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T;最终将这T个基学习器进行加权结合。
◆ 代表方