集成学习
集成学习的分类
Boosting —— 串行 —— 迭代式学习 —— 降偏差
- Boosting 方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。
- Boosting 的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
- Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。
Adaboost、GBDT、XGBoost
Bagging —— 并行 —— 集体投票决策 —— 降方差
- Bagging 方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。
- Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出的判断不会完全一致。在最终做决策时,每个个体单独作出判断,再通过投票的方式做出最后的集体决策。
- Bagging方法则是采取分而治之的策略,通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。
随机森林
集成学习的基本步骤
(1)找到误差互相独立的基分类器。
(2)训练基分类器。
(3)合并基分类器的结果。