了解一个假设:弱模型以某种方式组合起来时候,能得到更好的模型,意味这更好的精度或泛化能力。
一个模型往往面临着偏差方差的权衡问题,拟合能力强的泛化能力相对较弱,而泛化能力好的往往偏差过大。集成学习就是通过某种组合方式,一定程度上克服单一模型能力不足的问题。
集成学习方法:训练多个弱学习器或者基础学习器,并将它们结合起来以获得更好的结果。
Bagging方法:
通过bootstrap方法从大训练集中得到k个相互独立的训练集,并且在每一个训练集上都以某个基础学习算法得到一个模型,从而得到k个模型,k个模型以投票的方式形成预测结果,回归问题上以k个模型的均值作为回归值。以决策树作为基础学习算法的bagging方法称为随机森林。
Bootstrap: 从大小为N的原始训练数据集D中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复k次,然后用这k个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是N,所以这B个新的训练集中不可避免的会存在重复的样本。
Boosting方法:
每轮都用所有训练样本训练一个弱学习器,并且增加预测错误的样本的权重或者拟合预测残差,以供下一轮训练新的弱学习器使用,组合这些弱学习器构成强学习器。以决策树作为弱学习器的boosting方法为提升树,以决策树为基础学习器的gradient boo