集成学习(亦称组合方法、集成算法)
这是一种很好的思想,当用一种算法的效果不太好时,我们除了可以综合多个算法(迁移学习,结合各自长处)之外,还可以对同一算法进行多次使用,并且使用方式也多变。比如可以同时使用多次,并且每一次都进行微调,使得每一次都有差异(这样更能凸显多次的价值);也可以采用嵌套的方式,在每一次使用里面,对复杂的情况进行重点关注,进行再调用; 前者对标Bagging,后者对标Boosting。Bagging与Boosting对比:前者像是并列使用,后者像是嵌套使用。
一、Bagging
Bagging又称自助聚集(boot strap aggregating)。在训练阶段,使用自助抽样产生多个训练数据集(有放回、等容量、等概率抽样),并且在每个训练数据集上使用相同的分类算法建立基分类器;在进行分类时,每个基分类器独立地对待分类实例产生类预测, 算作一票,最后统计得票, 并将x指派到得票最高的类。
Bagging可以理解为同时并列使用相同的分类算法构造基分类器,最后以分类票数最高的结果作为分类结果。
…
…
实例:随机森林算法
(1)含义:建立随机森林的基本思想是,通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由多个训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。随机森林有两个重要参数,一是树节点预选的变量个数,二是随机森林中树的个数。
…
(自助法重采样: