集成学习系列目录:
集成学习②——Adaboost算法原理及python实现
集成学习③——Sklearn-Adaboost库参数及实战
一、集成学习的原理
集成学习就是"博采众长",将一组弱学习器通过一定方法给合在一起得到强学习器,这个强学习器的泛化能力相对任何一个弱学习器都要好,甚至还有起到三个臭皮匠,赛过诸葛亮的效果
这里有2个问题,有哪些弱学习器可以用?怎么结合?
弱学习器:以分类来说,分类效果要优于随机分类,也就是准确率高于50%的学习器,且计算速度快,通常以决策树和神经网络为主,一组弱学习器可以是一样的,也可以不一样,目前常用的算法还是以同样的为主。
二、集成学习的分类
如何结合:根据弱学习器之间是否存在依赖性,分为Boosting和Bagging。
① Boosting:使增长,顾名思义,后训练的学习器会比前一个要更强,代表算法有 Adaboost和Gradient Boosting Tree(GBDT);
② Bagging:袋子,源于从袋子里有放回性取样,是说各学习器基于随机样本独立训