一、集成学习简介
集成学习的思想就是将多个弱学习器组合成一个强学习器。集成学习的优点在于保证了弱分类器的多样性,使得其得到的结果往往比单个学习器的效果好(可以理解为真理往往掌握在大多数人手中)。
常见的集成学习的思想主要有:
1)bagging (自举汇聚法)
bagging算法:对于有m个样本的原始数据集,进行n次有放回的抽样得到一个样本,重复s次操作得到s个数据集,对这s个数据集训练出s个弱学习器,将这s个弱学习器融合得到一个强学习器。
模型融合方法:对于分类模型,采用少数服从多数(多数投票)的方法。 对于回归模型,采用平均值的方法。
2)boosting (提升算法)
bagging算法不考虑构建的模型之间的关系,boosting考虑各个模型之间的关系,并且通过加权累加的方式生成新的模型(强预测模型)。boosting的算法由于考虑模型之间的关系,所以boosting只能串行执行。