集成化处理
-
集成学习架构图
在统计学习中,集成学习(ensemble learning)是将多个基学习器(base learners)进行集成,以得到比每个单独基学习器更优预测性能的方法。每个用于集成的基学习器都是弱学习器(weak learner),其性能可以只比随机猜测稍微好一点点。集成学习的作用就是将这多个弱学习器提升成一个强学习器(strong learner),达到任意小的错误率。
-
Boosting
在设计算法之前,集成学习先要解决的一个理论问题是集成方法到底有没有提升的效果。在计算学习的理论中,这个问题可以解释成弱可学习问题(weakly learnable)和强可学习问题(strongly learnable)的复杂性是否等价。幸运的是,这个问题的答案是“是”,而实现从弱到强的手段就是提升方法( Boosting)。
通俗来说,提升方法就是三个臭皮匠顶个诸葛亮组合:例如孔明要选择三位将领,第一位擅用步兵和骑兵,但对水战一窍不通,这样的将领用来对付曹操可以,对付孙权就有点儿吃亏了。为了补上第一位将军的短板,第二位裨将在选择时专门挑选了水战功力雄厚的,可惜这位水军高手也有不足,骑马还可以,指挥步兵就是去送人头。这两位参谋放在一起,指挥骑兵一点儿问题都没有ÿ