集成学习(ensemble learning )的核心思想用一句话来说就是 --少数服从多数,或者说‘博采众长’。它可以用于分类
问题,回归问题,特征选取问题,异常点监测等
集成学习可以分为两大类。boosting 和 bagging
boosting最著名的就是adaboost和GBDT。
bagging最著名的就是随机森林。
bagging和boosting两派主要不同点:
这里,它们的弱学习器可以是相同的--同质,也可以是不同的--异质,但是通常来说是同质的。
在bagging中数据的采样使用的是 :随机采样,即有放回的采样。如果采用的次数足够多的话,这样可以保持有0.368的数据可以用于测试。
集成学习的结合策略:
对于数值回归类的问题,通常采用的是:平均法:如算数平均 加权平均
对于分类问题采用投票方式:
1.绝对多数投票法(票数最多,且票数过半) 2.相对多数投票法(少数服从多数) 3.加权投票法:和加权平均法一样,每个弱学习器的分类票数要乘以一个权重,最终将各个类别的加权票数求和,最大的值对应的类别为最终类别。
Adaboost:
Adaboost的主要优点有:
1)Adaboost作为分类器时,分类精度很高
2)在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。
3)作为简单的二元分类器时,构造简单,结果可理解。
4)不容易发生过拟合
Adaboost的主要缺点有:
1)对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。
参考资料:https://shunliz.gitbooks.io/machine-learning/content/ml/integrate.html
参考书籍:《机器学习》-周志华 《getting started with marchine learning 》--Jim Liang