提升方法AdaBoost算法学习笔记
前言
For xgboost:
为了好好学习xgboost,由于算法基础比较薄弱,曲线救国,从提升方法、提升树、GBDT一步步看起。手头有李航老师的《统计学习方法》以及周志华老师的西瓜书。对比来看,感觉李航老师的相对要好理解一些(步骤比较清晰,公式易懂,当然也有许多的不明白),周老师的西瓜书的算法介绍与公式推导更为直接(周老师喜欢用一些概率分布函数,公式抽象)。本文是依据《统计学习方法》一书做的AdaBoost算法学习笔记。
提升方法是一种统计学习方法,在分类问题中,通过改变训练样本的权重以及学习多个分类器,并将这些分类器进行线性组合,提高分类性能。因此AdaBoost算法是一种迭代型学习算法。
AdaBoost算法两大特点
1.针对训练样本,在每一轮学习过程中,对于前一轮分类错误的样本,在下一轮给予较大的权值使得该样本在下一次学习的过程中能获得分类器更多的关注。
2.针对多个弱分类器,AdaBoost采用加权多数表决的方法,即加大分类误差率小的弱分类器的权值,使其在分类表决中起较大的作用。
AdaBoost算法步骤
1.输入训练数据集:一个二分类的训练数据集,每个样本点由实例(x)与标记(y)组成,样本数为