文章目录
Ensemble Learning: Bagging, Boosting, Stacking
基本概念
元算法(meta-algorithm),所谓“三个臭皮匠,顶个诸葛亮”,在做决策时,通常会听取多个专家而不只是一个人的意见。例如,医院在遇到罕见病例时会组织多个专家进行临床会诊,共同分析病例以给出手术方案。这就是元算法背后的思路,元算法也叫集成方法(ensemble method)。
集成学习(Ensemble Learning),就是使用一系列学习器进行学习,并使用某种规则将各个学习器的结果进行整合,从而获得比单个学习器效果更好的学习效果的一种方法。集成学习可以用于分类问题,回归问题,特征选取,异常点检测等的集成,本文采用分类进行说明。
弱分类器,weak classifier, 是指分类器仅能对少量样本进行正确分类,其分类效果仅略优于随机猜测。
强分类器,strong classifier, 是指对样本分类的正确率很高的分类器。
有放回采样,sampling with replacement。对于n个样本的训练集T进行采样,每次采用得到的样本被放回原训练集T中,下次对训练集T进行采样时该样本仍有可能被采集到。
无放回采样,sampling without replacement。对于