Boostrap只是提供了一种组合方法的思想,就是将基分类器的训练结果进行综合分析。Bootstrap并不是一种机器学习的训练算法,而是一种自助采样的算法,用小样本数据集估计整体的非参数方法。
而其它的名称如Bagging、oosting是对组合方法的具体演绎。
第一种,通过处理训练数据集。这种方法根据某种抽样分布,通过对原始数据集进行再抽样来得到多个数据集。抽样分布决定了一个样本被选作训练的可能性大小,然后使用特定的学习算法为每个训练集建立一个分类器。Bagging袋装和Boosting提升都是这样的思想。Adaboost是Boosting当中比较出众的一个算法。
第二种,通过处理输入特征。在这种方法中,通过选择输入特征的子集来形成每个训练集。随机森林就是通过处理输入特征的组合方法,并且它的基分类器限制成了决策树。
High variance是model过于复杂overfit,记住太多细节noise,受outlier影响很大;
High
Boosting算法:
是一个迭代的过程,用来自适应的改变训练样本的分布,使得分类器聚焦在那些很难分的样本上。
Bagging算法:
是boostrap aggregation的缩写,是一种根据均匀概率分布从数据集中重复抽样(有放回的)的技术。