集成学习的本质:一组个体学习器,要求具有一定的准确性; 一种组装方法,要求具有通用性。
集成学习概念
通过构建并组合多个学习器来完成学习任务的过程即为集成学习。集成学习通过将多个学习器进行结合,常获得比单一学习器显著优越的泛化性能
个体学习器概念
个体学习器的概念是相对集成学习而言,表示集成学习中的一种学习器,根据个体学习器是否是同类型的学习器,分为同质和异质。同质的个体学习器又叫做基学习器,而异质的个体学习器则直接称为个体学习器。
boosting与bagging
-
本质:bagging和bosting为集成学习中的不同组装方法,两者基分类器依赖性上存在不同
-
概念:bootstraping——自助法,有放回的抽样方法(可能抽到重复样本)
bagging——套袋法,采用bootstraping方式从样本中抽样n个样本进行训练, 重复k轮,获得k个模型,对多模型结果分类多数表决,回归求平均的方式获取最 终结果。 boosting——源于PAC思想,通过提高那些前一轮被弱分类器分错样本的权 值, 减少前一轮分对样本的权值,使得分类器对误分的数据有较好的效果。即 改变概率分布方式进行组装
-
区别:个体学习器是否互相依赖
结合策略
-
平均法:加权平均法——适用于个体学