[机器学习]AdaBoost学习笔记（一）：原理

最新推荐文章于 2024-03-17 20:24:20 发布

LeeTioN

最新推荐文章于 2024-03-17 20:24:20 发布

阅读量841

点赞数 1

分类专栏：机器学习文章标签：机器学习 Boosting AdaBoost 集成学习算法

本文链接：https://blog.csdn.net/wongleetion/article/details/78146048

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

八月和九月参加了阿里天池的安全算法挑战赛，用了很多的集成模型，GBDT、XGBoost等等。对于刚入门的我来说，在比赛中纯粹把这些模型当成API函数，并没有了解太多的原理。现在比赛结束了（成绩不理想），想整理一些关于和树有关的经典机器学习模型来趁热打铁，所以就从AdaBoost开始整理了。

这里是LeeTioN的博客

背景知识

集成学习

在谈及AdaBoost之前，我们来看一下集成学习(ensemble learning)的概念。

集成学习通过构建并结合多个学习器来完成学习任务，通过该种方式可以获得比单一学习器显著优越的泛化性能。

其实日常生活中，我们在做出一些决定的时候，往往并不只是听从一个人的意见，而是尽可能地多地问身边的人，因为一个人的想法是局限的。同样在机器学习里面也是相似的。

一个学习器会有它的局限性，我们如果想要做到更好的预测效果，往往需要多个学习器来共同做预测，从而达到更准确的效果。

简单来说，集成学习的思想就是利用众人的力量，将多个学习器应用到同一个学习任务中，通过一种投票(voting)的方式，比如少数服从多数，最后做出决定。

拿我们常见的二分类问题来说，预测结果 $y \in \left \{ -1,+1 \right \}$ ，假设我们有 $T$ 个基分类器 $h_i{}$ ，若每个基分类器的重要性相同(有相同的权重)，则最后的分类结果为

$H(x) = sign\left ( \sum_{i=1}^{T} h_i{}\left ( x \right )\right )$ .

那么随之有一个问题，我们如何去生成基分类器？目前来说，有两大类：

基分类器存在强依赖关系(串行生成)
基分类器不存在强依赖关系(并行生成)

简单来说是大家常见的Boosting 和 Bagging，然后我们来看一下Boosting。

Boosting

Boosting在不同版本的叫法有所不同——目前看到的共有提升、助推、增强三种翻译方式。

Boosting在分类问题中，通过训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。当我们想训练 $T$ 个分类器时，先从初始的训练集中学习到第一个分类器，根据现有的基学习器的表现对样本分布进行调整，使得先前分错的训练样本受到更大的关注。接着，再进行循环，生成下一个基分类器，直到拥有 $T$ 个基分类器。

引用李航老师在《统计学习方法》中的一句话，来说明Boosting的关键。

对于提升方法(Boosting)来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。

AdaBoost思想

1995年，AdaBoost算法由Freund和Schapire提出，对于以上提及的Boosting要解决的两个问题，AdaBoost是这样做的：

对于训练样本的权重更改，提高前一轮被错分样本的权值，降低被正确分类的样本权值。
对于弱分类器组合，AdaBoost采取通过误差率大小来决定每个分类器的权重大小。

接下来我们来详细地看一下AdaBoost算法。

AdaBoost 算法

算法步骤

输入：训练集数据 $T = \left \{ \left ( x_1{} ,y_1{} \right ), \left ( x_2{} ,y_2{} \right ) ,\cdot \cdot \cdot ,\left ( x_N{} ,y_N{} \right ) \right \}$ ,
$y_i \in Y = \left \{ -1,+1 \right \}$

输出：集成分类器 $G(x)$

对每个样本赋予相同的初始权重 $\frac{1}{N}$ ;
对 $k=1$ 到 $K$ 循环执行(假设我们要生成 $K$ 个基分类器)；
用加权后的样本拟合新的基分类器，并计算第 $k$ 个模型的误差

$e_k = P(G_k(x_i) \neq y_i)=\sum_{i=1}^{N} \omega_{ki} \ I(G_k(x_i) \neq y_i)$
计算第 $k$ 个基分类器 $G_k(x)$ 的权重系数

$\alpha _k=\frac{1}{2}log\frac{1-e_k}{e_k}$
对下一次的循环做出训练集样本的权重更新

$Z_k=\sum_{i=1}^{N}w_{ki} \ exp(-\alpha_ky_iG_k(x_i))$

$z_{ki} = w_{ki} \ exp(-\alpha_ky_iG_k(x_i))$

对于第 $k+1$ 次循环中的训练集各个样本中的权重

$w_{k+1,i}=\frac{z_{ki}}{Z_k}$
满足并跳出循环，构建基分类器的线性组合

$f(x)=\sum_{k=1}^{K}\alpha_kG_k(x)$ ，最后 $G(x) = sign(f(x))$

前向分步算法

上一节我们看到了AdaBoost算法对于二分类问题处理的一般流程，这一节我们来看一个比AdaBoost更一般化的算法——前向分步算法。

首先，我们来看一个概念——加法模型。上一节的算法步骤6中，我们给出了每一轮迭代中的基分类器的线性组合

$f(x)=\sum_{k=1}^{K}\alpha_kG_k(x)$

而加法模型很简单，仅仅是对于该函数式做出了抽象化的操作——

$f(x)=\sum_{k=1}^{K}\beta_k\ b(x;\gamma_m)$

对于这里的参数 $\gamma_m$ ，它在AdaBoost算法里就是基分类器的分类阈值 (详情请参考李航老师的《统计学习方法》中的8.1.3 AdaBoost的例子，其中提到了基分类器的具体形式，其中阈值 $v$ 则是加法模型中所指代的 $\gamma_m$ )。

如果我们现在要求解这样一个加法模型的话，我们一共有 $2K$ 个参数要求解(假设 $\beta_m 、\gamma_m$ 都是 $1 * 1$ 维)。如果一口气把这么多参数都求解，那么求解过程是特别复杂。

大家可以想象一下中学阶段求解三元、四元一次方程组通常就很头痛了(学神除外=。=)，所以我们就想着去分步求解这一过程。(其实AdaBoost用的就是这样的一个分步方法)

到这里，大家其实可以看出来了，AdaBoost其实是前向分步算法的一个特例。那么这个特例特别在哪里呢？我们来一一解读一下。(对于前向分步算法，详情请看李航老师的《统计学习方法》中的8.3.1 节)

前向分步算法中，提及到的损失函数 $L(y,f(x))$ 是一般化的，而AdaBoost中则将这一损失函数具体为指数函数。
AdaBoost中的每一个基分类器尽可能的简单，比如每个基分类器为一颗树桩(Stump)，即只有一个分界条件，非黑即白。

参考文献

[1] 李航《统计学习方法》
[2] 周志华《机器学习》
[3] 马克斯 $\cdot$ 库恩《应用预测建模》
[4] 林轩田《机器学习技法》

总结

AdaBoost作为Boosting家族最经典的算法之一，非常易于理解，应用起来效率也非常高，下一篇将介绍关于AdaBoost的应用。

LeeTioN

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习]AdaBoost学习笔记（一）：原理

前言八月和九月参加了阿里天池的安全算法挑战赛，用了很多的集成模型，GBDT、XGBoost等等。对于刚入门的我来说，在比赛中纯粹把这些模型当成API函数，并没有了解太多的原理。现在比赛结束了（成绩不理想），想整理一些关于和树有关的经典机器学习模型来趁热打铁，所以就从AdaBoost开始整理了。这里是LeeTioN的博客背景知识集成学习在谈及AdaBoost之前，我们来看...
复制链接

扫一扫