Boosting(AdaBoost、GBDT)

最新推荐文章于 2022-06-06 10:17:24 发布

Chungchinkei

最新推荐文章于 2022-06-06 10:17:24 发布

阅读量245

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_39315740/article/details/99425998

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Boosting

Boosting也是Ensemble Learning（集成学习）中重要的一类，和Bagging的并行式不同，Boosting的核心思想是按顺序去训练分类器，每一个都要尝试修正前面的分类。其中最具有代表性的是的是Adaboost(适应性提升， Adaptive Boosting)和Gradient Boosting(梯度提升)。
对于Boosting方法来说，有两个非常重要的问题：

1. 在每一轮如何改变训练数据的权值或概率分布，修改的策略是什么？
2. 如何将弱分类器组合成一个强分类器？

Adaboost

对于上面两个问题，AdaBoost的做法是：
1.提高那些被前一轮弱分类器错误分类的样本的权值，而降低那些被正确分类样本的权值。这样一来，那些被分错的数据，在下一轮就会得到更大的关注。所以，分类问题被一系列的弱分类器“分而治之”。
2. 对弱分类器的组合，AdaBoost采取加权多数表决的方法。即加大分类误差率小的弱分类器的权值，使其在表决中起较大作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

算法流程

1.初始化数据权值分布

假设训练数据集中有均匀的权值分布（只有初始是均匀，后面要按照误差率进行更新）：
$D_1=(w_{11},w_{12},...,w_{1N})，w_{1i}=\frac{1}{N}, \quad i=1,2,...,N$

2.基于权值分布 $D_m$ 得到基本分类器

$G_m(x):x\rightarrow\{-1,1\}$

3.计算分类误差率

$G_m(x)$ 在训练数据集上的分类误差率为（注意不要忘记数据权值）：
$e_m=\sum_{i=1}^NP(G_m(x_i) \not= y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\not=y_i)$

4.计算 $G_m(x)$ 的系数

$a_m=\frac{1}{2}\log\frac{1-e_m}{e_m}$

5.更新数据集的权值分布

$D_{m+1}=(w_{m+1,1},w_{m+1,2},...,w_{m+1,N})$
$w_{m+1,1}=\frac{w_{mi}}{Z_m}\exp(-a_my_iG_m(x_i)), \quad i=1,2,...,N$

其中， $Z_m$ 是规范化因子，目的在于保证每次权值总和是1：
$Z_m=\sum_{i=1}^Nw_{mi}exp(-a_my_iG_m(x_i))$

最终得到分类器：
$G(x)=sign(f(x))=sign(\sum_{m=1}^Ma_mGm(x))$

算法实例

我们结合李航《统计学习方法》中的一个例子分析：
假设弱分类器由 $x < v$ 或 $x > v$ 产生，其阈值 $v$ 使该分类器在训练数据集上分类误差率最低。试用AdaBoost算法学习一个强分类器。注意y=1为正例，y=-1为反例。

序号	1	2	3	4	5	6	7	8	9	10
x	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1

第一轮m=1：

1.初始化数据权值分布

$D_1=(w_{11},w_{12},...,w_{110})$

$w_{i1}=0.1, \quad i=1,2,...,10$

2.计算分类误差率

计算发现 $G_1(x)$ 在阈值 $v = 2.5$ 时在训练数据集上的分类误差率最低(序号7、8、9分类错，其他都正确)，故误差率 $e_1=P(G_1(x_i)\not=y_i)=0.3$ .
所以基本分类器为：
$G_1(x)=\left\{ \begin{aligned} 1, & & x<2.5 \\ -1, & & x>2.5\\ \end{aligned} \right.$

3.计算 $G_1(x)$ 的系数

$a_1=\frac{1}{2}\log\frac{1-e_1}{e_1}=0.4236$

4.更新数据的权值分布

$\begin {aligned} & D_2=(w_{21},w_{22},...,w_{210}) \\ & \\ & Z_1=7*0.1*exp(-0.4236)+3*0.1*exp(0.4236）= 0.91651\\ & \\ & w_{21}=\frac{w_{1i}}{Z_1}\exp(-a_1y_iG_1(x_i)), \quad i=1,2,...,10\\ & \\ & D_2=(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,0.16667,0.16667,0.16667,0.07143) \\ & \\ & f_1(x)=0.4236G_1(x) \end{aligned}$

分类器 $sign[f_1(x)]$ 在训练数据集上有3个误分类点，从 $D_2$ 的变化中可以看出分类错误的点权值被加大了。

第二轮m=2:

1.数据权值分布

$D_2=(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,0.16667,0.16667,0.16667,0.07143)$

2.计算分类误差率

计算发现 $G_2(x)$ 在阈值 $v = 8.5$ 时在训练数据集上的分类误差率最低，故误差率 $e_2=P(G_2(x_i)\not=y_i)=0.2143$ .
所以基本分类器为：
$G_2(x)=\left\{ \begin{aligned} 1, & & x<8.5 \\ -1, & & x>8.5\\ \end{aligned} \right.$

3.计算 $G_1(x)$ 的系数

$a_2=\frac{1}{2}\log\frac{1-e_2}{e_2}=0.2143$

4.更新数据的权值分布

$\begin {aligned} & D_3=(0.0455,0.0455,0.0455,0.01667,0.01667,0.01667,0.1060,0.1060,0.1060,0.0455) \\ & \\ & f_2(x)=0.4236G_1(x)+0.6496G_2(x) \end{aligned}$

分类器 $sign[f_3(x)]$ 在训练数据集上有3个误分类点。

第三轮m=3:

1.数据权值分布

$D_3=(0.0455,0.0455,0.0455,0.01667,0.01667,0.01667,0.1060,0.1060,0.1060,0.0455)$

2.计算分类误差率

$G_3(x)$ 在阈值 $v = 5.5$ 时在训练数据集上的分类误差率最低，故误差率 $e_3=P(G_3(x_i)\not=y_i)=0.1820$ .
所以基本分类器为：
$G_3(x)=\left\{ \begin{aligned} 1, & & x>5.5 \\ -1, & & x<5.5\\ \end{aligned} \right.$

3.计算 $G_1(x)$ 的系数

$a_3=\frac{1}{2}\log\frac{1-e_3}{e_3}=0.7514$

4.更新数据的权值分布

$\begin {aligned} & D_4=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125) \\ & \\ & f_3(x)=0.4236G_1(x)+0.6496G_2(x)+0.7514G_3(x) \end{aligned}$

分类器 $sign[f_3(x)]$ 在训练数据集上的误分类点个数为0。

Gradient Boosting

Note

1.如何体现Adaboost中误分类的权值得以扩大，而被正确分类样本的权值却得以缩小？
$w_{m+1,1}=\frac{w_{mi}}{Z_m}\exp(-a_my_iG_m(x_i)), \quad i=1,2,...,N$

上式可以写为:
$w_{m+1,1}=\left\{ \begin{aligned} \frac{w_{mi}}{Z_m}\exp(-a_m),& & G_m(x_i)=y_i \\ \\ \frac{w_{mi}}{Z_m}\exp(a_m),& & G_m(x_i)\not=y_i \\ \end{aligned} \right.$
因此在分类器分类正确时，权值会非常小。

2.如何将弱分类器组成强分类器？
弱分类器通过 $\alpha_m$ 进行组合， $\alpha_m$ 表示在最终分类器中的重要性，随着 $e_m$ 的减小而增大。

2019.9.2 补充Note

Chungchinkei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Boosting(AdaBoost、GBDT)

BoostingBoosting也是Ensemble Learning（集成学习）中重要的一类，和Bagging的并行式不同，Boosting的核心思想是按顺序去训练分类器，每一个都要尝试修正前面的分类。其中最具有代表性的是的是Adaboost(适应性提升， Adaptive Boosting)和Gradient Boosting(梯度提升)。对于Boosting方法来说，有两个非常重要的问题...
复制链接

扫一扫