集成学习
定义:
集成学习(Ensemble Learning)的目的是将多个弱分类器通过某种集合策略形成一个强学习器。弱分类器之间既要保证一定的差异性,其本身也要保证一定的准确性,即“好而不同”。差异性更多的是指弱分类器所关注的或提取的数据特征不同。例如KNN算法更关注的是数据之间的欧式距离,空间距离。而决策树,例如ID3则关注的是数据二分时其熵的变化。通俗的说就是三个臭皮匠赛过诸葛亮,而这三个臭皮匠都在待解决问题上都有特别的看法。
所以集成学习有两个重点内容需要关注:1)学习器 2)结合策略
学习器:
同种类型的弱学习器称为“同质”学习器,不同种类型的弱学习器称为“异质”学习器。学习器之间根据其“依赖程序”分为“强依赖”和“弱依赖”。“强依赖”的代表有强大的Boosting家族,主要目标在于减少bias(偏差),即提高模型在训练集上的精度。之所以说“强依赖”,因为下一个待训练的模型需要依赖上一个模型。模型1,2,3的训练呈现一种串行的模式。而“弱依赖”则可以同时训练多个模型,模型和模型之间没有特别大的关系。代表方法有Bagging,Random Forests(随机森林)等,其主要目标在于减少Variance(