各版本Adaboost

最新推荐文章于 2024-09-16 16:56:48 发布

Guanxiong He

最新推荐文章于 2024-09-16 16:56:48 发布

阅读量304

点赞数

分类专栏： Boosting

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121906640

版权

机器学习分类算法

Boosting 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

各版本Adaboost

Adaboost

来源：Freund Y , Schapire R E . A desicion-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55:119-139.

Adaboost最初版本

在这里插入图片描述

针对二分类问题
主要贡献是提出了每轮迭代自动调整样本分布的策略
错误率 $\epsilon_t$ 使用绝对值损失 $h_t(x_i)-y_i|$
权值更新

$w_i^{t+1}=w_i^t\beta_t^{1-|h_t(x)-y_i|}=\begin{cases} w_i^t/\beta_t \ \ \ \ \ (h_t(x_i)=y_i)\\ w_i^t\beta_t \ \ \ \ \ \ \ (h_t(x_i)\neq{y_i}) \end{cases}=\begin{cases} w_i^t\frac{1-\epsilon_t}{\epsilon_t} \ \ \ \ \ (h_t(x_i)=y_i)\\ w_i^t\frac{\epsilon_t}{1-\epsilon_t} \ \ \ \ \ (h_t(x_i)\neq{y_i}) \end{cases}=w_i^texp(-ln(\frac{1-\epsilon_t}{\epsilon_t})y_ih_t(x_i))=w_i^texp(-\alpha_ty_ih_t(x_i))$

基分类器加权权值 $\alpha_t=ln(1/\beta_t)$
最终分类器的判别条件：分类结果投票
Adaboost（归纳版本）
- Singer(1999)提出，对Adaboost类方法进行归纳

在这里插入图片描述

归纳Adaboost类方法的一致形式，统一之处在于样本分布的更新方式（指数损失加权）
各类Adaboost变体的区别在于（1）基分类器 $h_t$ （2）损失函数（错误率衡量）（3）基分类器组合方式（权值）
Adaboost（加法模型+前向分步）
- Friedman等（2000）提出解释，将Adaboost模型视作加法模型，以前向分布方法逐步更新
- 为Adaboost类方法提供了一个统一框架

Adaboost.M1 & Adaboost.M2

**来源：**Freund Y . Experiments with a new boosting algorithm[J]. icml, 1996.

Adaboost.M1（Discrete Adaboost）

离散Adaboost，方法主要特征是基学习器以离散分类标签为输出
k分类方法流程：

在这里插入图片描述

以多分类器作为基分类器
错误率 $\epsilon_t$ 统计基分类器分错样本的权值和
基分类器权值 $\alpha_t=\frac1{\beta}=\frac{1-\epsilon_t}{\epsilon_t}$
具有强约束：只有基分类器正确率高于 $1 / 2$ 时，才是有效的（能为集成分类器带来正向收益）
权值更新公式进行多分类拓展：
- 分类正确 $h_t(x_i)=y_i)$ 时：
  
  令 $y_ih_t(x_i)=1$ ，满足：
  $D_{t+1}=D_t*exp(-\alpha_iy_ih_t(x_i))=D_t*\beta_t$
- 分类正确 $h_t(x_i)=y_i)$ 时：
  
  令 $y_ih_t(x_i)=0$ ，满足:
  $D_{t+1}=D_t*exp(-\alpha_iy_ih_t(x_i))=D_t$

Adaboost.M2（M1的拓展）

离散adaboost的拓展

在这里插入图片描述

基学习器 $h_t$ 不再是 $X - > Y$ 的映射，而是 $X*Y->\{0,1\}$ 的映射

即用 $h_x(x_i,y)$ 来表示样本 $x_i$ ，是否属于第 $y$ 类（0或1），这种拓展可以用于解决单样本多标签分类问题

（或者说 $h_t(x)$ 的输出是J维由01构成的向量）
在M2方法中，引入了pseudo-loss
$pseudo-loss=\frac12\sum_{(i,y)\in{B}}D_t(i,y)(1-h_t(x_i,y_i)+h_t(x_i,y))$
即目标是：保证真实分类正确的前提下最小化加权下的误分类数
权值更新存在以下四种情况：
- 真实标签预测正确，伪标签成功鉴别 $h_t(x_i,y_i)=1;h_t(x_i,y)=0）$ ，此时 $D_{t+1}=D_t\beta_t$
- 真实标签预测正确，伪标签鉴别失败 $h_t(x_i,y_i)=1;h_t(x_i,y)=1）$ ，此时 $D_{t+1}=D_t\beta_t^\frac12$
- 真实标签预测错误，伪标签鉴别成功 $h_t(x_i,y_i)=0;h_t(x_i,y)=0）$ ，此时 $D_{t+1}=D_t\beta_t^\frac12$
- 真实标签预测错误，伪标签鉴别失败 $h_t(x_i,y_i)=0;h_t(x_i,y)=1）$ ，此时 $D_{t+1}=D_t$
该权值更新方案保留的原则依旧是预测错误程度越高，更新后权值越大，与M1方法中基本一致

Adaboost.MH & Adaboost.MO & Adaboost.MR

来源：Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

Adaboost.MH（Real Adaboost）

多分类算法

在这里插入图片描述

实值Adaboost，相较于离散Adaboost，其最大的特点是基分类器输出的不是分类结果而是连续实值
基分类器：
- MH方法中，基学习器 $h_t(i,l)$ 以实数输出表示样本 $x_i$ 分到 $l$ 类别的可能程度
- 二分类情况下： $h_t$ 建立 $X * Y - > R$ 的映射
- 多分类情况下： $h_t$ 建立 $X->2^Y$ 的映射（即用L维数组表示某样本分别分到L个类别的情况）
损失计算
- 基学习器训练时目标是最小化损失
- 二分类：
  - 损失 $\epsilon_t=\frac1m\sum_iI[h_t(x_i)\neq{y_i}]$
- 多分类/多标签：
  - 提出 Hamming Loss
    - 对 $h_t$ 输出的L维向量 $2^Y$ ，当 $x_i$ 属于第l类时， $Y [l] = 1$ ，否则 $Y [l] = - 1$
    - 定义Hamming Loss:
      $hloss_D(h)=\frac1LE_{(x,Y),D}[|h(x)\Delta{Y}|]$
      即真实向量与预测向量不一致元素个数对类别数算术平均
优化/权值更新
- 二分类
  - 优化目标是最小化单步下的所有分类指数损失之和
    $Z_t=\sum_iD_t(i)exp(-\alpha_iy_ih_t(x_i))$
    在基学习器确定情况下，使 $X_t$ 最小的 $\alpha_i$ 满足：
    $\alpha_i=\frac12ln(\frac{1+r_t}{1-r_t})\ \ \ \ \ \ \ (r_t=\sum_iD_t(i)y_ih_t(x_i))$
    有基学习器 $h_t$ 误分类概率：
    $P(h_t(x_i)\neq{y_i})=\frac{1-r_t}{2}$
    即最小化指数损失和=>最大化 $r_t$ =>最小化基分类器误分类概率，证明了基学习器训练目标为最小化误分类概率
  - 找到符合上述最优条件的一组自然特例
    - 令 $h_t\in\{-1,0,+1\}$
    - 定义： $W_b=\sum_{i:u_i=b}D_t(i)$ ，此处 $u_i=y_ih_t(x_i)$ ，即类权值和 $W_b$ 是预测值为b的所有样本权值和
    - 此时
      $Z_t=\sum_iD_t(i)exp(-\alpha u_i)=W_0+W_{-1}e^\alpha+W_{+1}e^{-\alpha}$
    - 当 $\alpha=\frac{W_+}{W_{-}}$ 时， $Z_t$ 取得最小值
      $Z_{min}=W_0+2\sqrt{W_{-1}+W_{+1}}$
    - 因此有基学习器权值更新：
    $\alpha_{t}=\frac12ln(\frac{W_+}{W_-})$
    - 样本分布更新
    $D_{t+1}(i)=D_t(i)exp(-y_ih_t(x_i))/Z_t$
  - 就具体实现而言基学习器使用决策树，将样本空间划分为M个子空间 $X_1,...,X_M)$
  - 定义： $W_b^j=\sum_{i:x_i\in{X_j};y_i=b}D_t(i)$
  - 每个子空间对应一个输出值 $c_j=\frac{W_+^j}{W_-^j}$
  - $Z_t=\sum_{i:x_i\in{X_j}}(W_+^je^{-c_j}+W_-^je^{c_j})$ ，最小值 $Z_{tmin}=2\sum_j\sqrt{W_+^jW_-^j}$
- 多分类
  - 与二分类基本一致
  - 有基学习器权值更新：
    $\alpha_t=\frac12ln(\frac{1+r_t}{1-r_t})\\ r_t=\sum_{i,l}D_t(i,l)Y_i[l]h_t(i,l)\\ Z_{t-min}=\sqrt{\frac{1-r_t}2}$
  - 样本分布更新:
    $D_{t+1}(i,l)=\frac{D_t(i,l)exp(-\alpha_tY_i[l]h_t(i,l))}{Z_t}$
  - 结合决策树区域划分：
    - $KaTeX parse error: Undefined control sequence: \and at position 38: …,l)[x_i\in{X_j}\̲a̲n̲d̲ ̲Y_i[l]=b]$
    - $c_{jl}=\frac12ln(\frac{W_+^{jl}}{W_-^{jl}})$
    - $Z_{t-min}=2\sum_{il}\sqrt{W_+^{jl}W_-^{jl}}$

Adaboost.MO (Output Coding)

来源：Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

在这里插入图片描述

输出编码策略：
- 在MH方法的基础上对损失衡量方法进行改进
- 定义映射 $\lambda:y->2^{k'}$ ，有限制 $k'=|Y'|\neq{|Y|}=k$ ，即对原始类别标签结果进行编码，希望编码后的向量之间Hamming距离尽可能的远
- 目标可表示为：
  $\underset{y\in{Y}}{arg\ min}\sum_{y'\in{Y'}} exp(-\lambda(y)[y']f(x,y'))$

Adaboost.ECC

来源：Guruswami V , Sahai A . Multiclass Learning, Boosting, and Error-Correcting Codes. ACM, 2000.

在这里插入图片描述

编码方式：Error-Correcting Codes
损失函数：加权下误分类数量和
编码矩阵M
- 矩阵规格： $M\in\{\pm1\}^{C*T}$
- M中第c行 $M (c)$ 表示第 $c$ 类的类别编码
- M中的每一列表示C个类别下样本的二元划分
- 编码矩阵的构建：
  - 对于前向分步方法中的每一步（第t步），都有其对应编码矩阵 $M_{.t}$
  - 在.ECC与.OC方法中，每步中 $M_{.t}$ 与 $h_t$ 的求解是两阶段优化问题
  - 每步中先计算的 $U_t$ 是在新权重下所有样本编码距离之和， $M_{.t}$ 的优化目标是最小化 $U_t$
  - 在最优化的 $M_{.t}$ 下，求解使损失最小的 $h_t$

Adaboost.OC

**来源：Schapire, R.E., 1997. Using output codes to boost multiclass learning problems. In: Proc. 14th Intl. Conf. Machine Learning. Nashville, TN, USA, pp. 313–321 **

在这里插入图片描述

编码方式：Error-Correcting Codes（编码矩阵构建方式与ECC一致）
损失函数：PSEUDOLOSS

Adaboost.MR

来源：Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

在这里插入图片描述

提出新的Loss方法Rank Loss
- 定义映射： $f : X * Y - > R$ ，表示样本X分到y类的Rank（认为分类正确的情况下Rank会更高）
- 定义Missorder pair（分错类的Rank比正确分类高）：
  $l_0\notin{Y_i},l_1\in{Y_i},而f(x_i,l_1)\leq{f(x_i,l_0)}$
- 定义Rank Loss：
  $rloss_{D,f}=E_{(x,y)\sim{D}}(\frac{(l_0,l_1)\in(Y-y_i)*y_i:f(x_i,l_1)\leq{f(x_i,l_0)}}{|y_i||Y-y_i|})$

LogitAdaboost & Gentle Adaboost

来源：Friedman J , Hastie T , Tibshirani R . Additive logistic regression: a statistical view of boosting (With discussion and a rejoinder by the authors)[J]. Annals of Statistics, 2000, 28(2):337-374.

核心特点：将adaboost视作逻辑回归的线性组合，通过牛顿法梯度下降进行前向分步优化

LogitAdaboost

在这里插入图片描述

二分类
- 定义模型（加性逻辑回归）
  $H(x)=[F(x)]=sign[\sum_{t=1}^Tf_m(x)]$
- 预测值 $y^*=1$ 的概率可以表示为
  $p(x)=\frac{e^{F(x)}}{e^{F(x)}+e^{-F(x)}}$
  证明：
  $\begin{aligned} &J(F)=E(e^{-yF(x)})\\ &E(e^{-yF(x)}|x)=P(y=1|x)e^{-F(x)}+P(y=-1|x)e^{F(x)}\\ &令：\frac{\partial J(F)}{\partial{F}}=-P(y=1|x)e^{-F(x)}+P(y=-1|x)e^{F(x)}=0\\ &得：F(x)=\frac12log\frac{P(y=1|x)}{P(y=-1|x)}\\ &也即P(y=1|x)=p(x)=\frac{e^{F(x)}}{e^{F(x)}+e^{-F(x)}} \end{aligned}$
- 使用对数似然损失
  $L(y^*,P(x))=y^**log(P(x))+(1-y^*)*log(1-P(x))$
  在前向分步过程中，将模型累加过程表示为： $F = F + f$ ，其似然
  $E[L(F+f)]=E[y^**log(\frac{e^{F+f}}{e^{F+f}+e^{-(F+f)}})+(1-y^*)*log(\frac{e^{-(F+f)}}{e^{F+f}+e^{-(F+f)}})]$
  损失对f求导，得：
  $s(x)=\frac{\partial{El(F+f)}}{\partial{f}}=2E[y^*-P(x)|x]\\ H(x)=\frac{\partial^2{El(F+f)}}{\partial{f^2}}=-4E[P(x)(1-P(x))|x]$
  由二阶展开推导的梯度下降法：
  $\begin{aligned} F(x)&=F(x)-\frac{s(x)}{H(x)}\\ &=F(x)+\frac12E_w[\frac{y^*-P(x)}{P(x)(1-P(x))}|x] \end{aligned}$
  综上，每步求 $f$ 可表示为：
  $f=\underset{f}{E_w}(F(x)+\frac12\frac{y^*-P(x)}{P(x)(1-P(x))}-(F(x)+f(x)))^2\\ =\underset{f}{E_w}(f(x)-\frac12\frac{y^*-P(x)}{P(x)(1-P(x))})^2$
  也即用基学习器学习 $\frac12\frac{y^*-P(x)}{P(x)(1-P(x))}$
- 样本权重更新：
  $w_{t+1}(i)=\frac{w_t(i)*e^{y^*f(x_i)}}{Z_t(i)}\\ Z_t(i)=\frac{y^*-P(x_i)}{P(x)(1-P(x_i))}$
  得：
  $w_{t+1}(i)=P(x_i)(1-P(x_i))$
多分类情况下类似，具体更新方式见图

在这里插入图片描述

Gentle Adaboost

在这里插入图片描述

形式上类似Real Adaboost
$H(x)=sign(\sum_t\alpha_th_(x))$
但Real Adaboost中，前向分布每一步的更新是通过交替优化参数方法实现的

在Gentle Adaboost中，每步的更新与LogitAdaboost类似，是通过梯度下降的方法完成的（对加权平方误差进行梯度下降）