《统计学习方法》（第八章）——提升方法

最新推荐文章于 2021-01-31 10:47:36 发布

mkopvec

最新推荐文章于 2021-01-31 10:47:36 发布

阅读量257

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mkopvec/article/details/90523795

版权

本文详细介绍了提升方法中的AdaBoost算法，包括其基本思路、训练误差分析和算法的解释。AdaBoost通过加权多数表决的方式减少误差率，通过迭代优化弱分类器，构建强分类器。算法的训练误差界呈指数级下降，证明了其高效性。

摘要由CSDN通过智能技术生成

提升方法AdaBoost算法

提升方法的基本思路

在概率近似正确(PAC)学习的框架中，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机的好，那么就称为弱可学习，而强可学习与弱可学习是等价的，所以可以通过方法来提升弱可学习为强可学习，AdaBoost算法采取加权多数表决的方式来减少误差率

AdaBoost算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $x_i \in R^n, y_i \in \{-1,+1\}$
输出：最终分类器 $G (x)$
$(1)$ 初始化训练数据权值分布
$D_1=(w_{11},w_{12},...,w_{1N}), \ \ \ \ \ \ w_{1i}=\frac{1}{N},\ \ \ \ \ i=1,2,....,N$
$(2)$ 对 $m = 1, 2, . . . ., M$

$(a)$ 使用权值分布 $D_m$ 的训练数据集学习，得到基本分类器
$G_m(x):X \to \{-1,+1\}$
$(b)$ 计算 $G_m(x)$ 在训练数据集上的分类误差率,选择误差率最小的作为 $G_m(x)$
$e_m=\sum\limits_{i=1}^NP(G_m(x_i) \ne y_i)=\sum\limits_{i=1}^Nw_{mi}I(G_m(x_i)\ne y_i)$
$(c)$ 计算 $G_m(x)$ 的系数
$a_m=\frac{1}{2} \log \frac{1-e_m}{e_m}$
$(d)$ 更新训练数集的权值分布
$D_{m+1}=(w_{m+1,1},w_{m+1,2},...,w_{m+1,N})$
$w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp (-a_my_iG_m(x_i)),\ \ \ \ \ \ i=1,2,...,N$
其中
$Z_m=\sum\limits_{i=1}^Nw_{mi}\exp (-a_my_iG_m(x_i))$
$(3)$ 构建基本分类器的线性组合
$f(x)=\sum\limits_{m=1}^Ma_mG_m(x)$
$G(x)=sign(f(x))=sign(\sum\limits_{m=1}^Ma_mG_m(x))$
如果被误分类，则权值被放大
$e^{2a_m}=\frac{1-e_m}{e_m}$
倍