理论部分
Adaboost是一种迭代算法。初始时,所有训练样本的权重都被设为相等,在此样本分布下训练出一个弱分类器。在第( i =1,2,3, …M,M为迭代次数)次迭代中,样本的权重由第 i-1次迭代的结果而定。在每次迭代的最后,都有一个调整权重的过程,被分类错误的样本将得到更高的权重。这样分错的样本就被突出出来,得到一个新的样本分布。在新的样本分布下,再次对弱分类器进行训练,得到新的弱分类器。经过M次循环,得到M个弱分类器,把这T个弱分类器按照一定的权重叠加起来,就得到最终的强分类器(很多博客里说的三个臭皮匠赛过诸葛亮)。用公式来体现的话见下图。文档里看到有句话说的是:”Theidea behind adaptive boosting is to weight the data instead of (randomly)sampling it and discarding it”
完整的adaboost算法(其实是所谓的DiscreteAdaBoost)<