各版本Adaboost

各版本Adaboost

Adaboost

来源:Freund Y , Schapire R E . A desicion-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55:119-139.

  • Adaboost最初版本

在这里插入图片描述

  • 针对二分类问题
  • 主要贡献是提出了每轮迭代自动调整样本分布的策略
  • 错误率 ϵ t \epsilon_t ϵt使用绝对值损失 ∣ h t ( x i ) − y i ∣ |h_t(x_i)-y_i| ht(xi)yi
  • 权值更新

w i t + 1 = w i t β t 1 − ∣ h t ( x ) − y i ∣ = { w i t / β t       ( h t ( x i ) = y i ) w i t β t         ( h t ( x i ) ≠ y i ) = { w i t 1 − ϵ t ϵ t       ( h t ( x i ) = y i ) w i t ϵ t 1 − ϵ t       ( h t ( x i ) ≠ y i ) = w i t e x p ( − l n ( 1 − ϵ t ϵ t ) y i h t ( x i ) ) = w i t e x p ( − α t y i h t ( x i ) ) w_i^{t+1}=w_i^t\beta_t^{1-|h_t(x)-y_i|}=\begin{cases} w_i^t/\beta_t \ \ \ \ \ (h_t(x_i)=y_i)\\ w_i^t\beta_t \ \ \ \ \ \ \ (h_t(x_i)\neq{y_i}) \end{cases}=\begin{cases} w_i^t\frac{1-\epsilon_t}{\epsilon_t} \ \ \ \ \ (h_t(x_i)=y_i)\\ w_i^t\frac{\epsilon_t}{1-\epsilon_t} \ \ \ \ \ (h_t(x_i)\neq{y_i}) \end{cases}=w_i^texp(-ln(\frac{1-\epsilon_t}{\epsilon_t})y_ih_t(x_i))=w_i^texp(-\alpha_ty_ih_t(x_i)) wit+1=witβt1ht(x)yi={wit/βt     (ht(xi)=yi)witβt       (ht(xi)=yi)={witϵt1ϵt     (ht(xi)=yi)wit1ϵtϵt     (ht(xi)=yi)=witexp(ln(ϵt1ϵt)yiht(xi))=witexp(αtyiht(xi))

  • 基分类器加权权值 α t = l n ( 1 / β t ) \alpha_t=ln(1/\beta_t) αt=ln(1/βt)

  • 最终分类器的判别条件:分类结果投票

  • Adaboost(归纳版本)

    • Singer(1999)提出,对Adaboost类方法进行归纳

在这里插入图片描述

  • 归纳Adaboost类方法的一致形式,统一之处在于样本分布的更新方式(指数损失加权)

  • 各类Adaboost变体的区别在于(1)基分类器 h t h_t ht(2)损失函数(错误率衡量)(3)基分类器组合方式(权值)

  • Adaboost(加法模型+前向分步)

    • Friedman等(2000)提出解释,将Adaboost模型视作加法模型,以前向分布方法逐步更新
    • 为Adaboost类方法提供了一个统一框架

Adaboost.M1 & Adaboost.M2

**来源:**Freund Y . Experiments with a new boosting algorithm[J]. icml, 1996.

Adaboost.M1(Discrete Adaboost)

  • 离散Adaboost,方法主要特征是基学习器以离散分类标签为输出

  • k分类方法流程:

在这里插入图片描述

  • 以多分类器作为基分类器

  • 错误率 ϵ t \epsilon_t ϵt统计基分类器分错样本的权值和

  • 基分类器权值 α t = 1 β = 1 − ϵ t ϵ t \alpha_t=\frac1{\beta}=\frac{1-\epsilon_t}{\epsilon_t} αt=β1=ϵt1ϵt

  • 具有强约束:只有基分类器正确率高于 1 / 2 1/2 1/2时,才是有效的(能为集成分类器带来正向收益)

  • 权值更新公式进行多分类拓展

    • 分类正确 ( h t ( x i ) = y i ) (h_t(x_i)=y_i) (ht(xi)=yi)时:

      y i h t ( x i ) = 1 y_ih_t(x_i)=1 yiht(xi)=1,满足:
      D t + 1 = D t ∗ e x p ( − α i y i h t ( x i ) ) = D t ∗ β t D_{t+1}=D_t*exp(-\alpha_iy_ih_t(x_i))=D_t*\beta_t Dt+1=Dtexp(αiyiht(xi))=Dtβt

    • 分类正确 ( h t ( x i ) = y i ) (h_t(x_i)=y_i) (ht(xi)=yi)时:

      y i h t ( x i ) = 0 y_ih_t(x_i)=0 yiht(xi)=0,满足:
      D t + 1 = D t ∗ e x p ( − α i y i h t ( x i ) ) = D t D_{t+1}=D_t*exp(-\alpha_iy_ih_t(x_i))=D_t Dt+1=Dtexp(αiyiht(xi))=Dt

Adaboost.M2(M1的拓展)

  • 离散adaboost的拓展

在这里插入图片描述

  • 基学习器 h t h_t ht不再是 X − > Y X->Y X>Y的映射,而是 X ∗ Y − > { 0 , 1 } X*Y->\{0,1\} XY>{0,1}的映射

    即用 h x ( x i , y ) h_x(x_i,y) hx(xi,y)来表示样本 x i x_i xi,是否属于第 y y y类(0或1),这种拓展可以用于解决单样本多标签分类问题

    (或者说 h t ( x ) h_t(x) ht(x)的输出是J维由01构成的向量)

  • 在M2方法中,引入了pseudo-loss
    p s e u d o − l o s s = 1 2 ∑ ( i , y ) ∈ B D t ( i , y ) ( 1 − h t ( x i , y i ) + h t ( x i , y ) ) pseudo-loss=\frac12\sum_{(i,y)\in{B}}D_t(i,y)(1-h_t(x_i,y_i)+h_t(x_i,y)) pseudoloss=21(i,y)BDt(i,y)(1ht(xi,yi)+ht(xi,y))
    即目标是:保证真实分类正确的前提下最小化加权下的误分类数

  • 权值更新存在以下四种情况:

    • 真实标签预测正确,伪标签成功鉴别 ( h t ( x i , y i ) = 1 ; h t ( x i , y ) = 0 ) (h_t(x_i,y_i)=1;h_t(x_i,y)=0) ht(xi,yi)=1;ht(xi,y)=0,此时 D t + 1 = D t β t D_{t+1}=D_t\beta_t Dt+1=Dtβt
    • 真实标签预测正确,伪标签鉴别失败 ( h t ( x i , y i ) = 1 ; h t ( x i , y ) = 1 ) (h_t(x_i,y_i)=1;h_t(x_i,y)=1) ht(xi,yi)=1;ht(xi,y)=1,此时 D t + 1 = D t β t 1 2 D_{t+1}=D_t\beta_t^\frac12 Dt+1=Dtβt21
    • 真实标签预测错误,伪标签鉴别成功 ( h t ( x i , y i ) = 0 ; h t ( x i , y ) = 0 ) (h_t(x_i,y_i)=0;h_t(x_i,y)=0) ht(xi,yi)=0;ht(xi,y)=0,此时 D t + 1 = D t β t 1 2 D_{t+1}=D_t\beta_t^\frac12 Dt+1=Dtβt21
    • 真实标签预测错误,伪标签鉴别失败 ( h t ( x i , y i ) = 0 ; h t ( x i , y ) = 1 ) (h_t(x_i,y_i)=0;h_t(x_i,y)=1) ht(xi,yi)=0;ht(xi,y)=1,此时 D t + 1 = D t D_{t+1}=D_t Dt+1=Dt

    该权值更新方案保留的原则依旧是预测错误程度越高,更新后权值越大,与M1方法中基本一致

Adaboost.MH & Adaboost.MO & Adaboost.MR

来源:Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

Adaboost.MH(Real Adaboost)

  • 多分类算法

在这里插入图片描述

  • 实值Adaboost,相较于离散Adaboost,其最大的特点是基分类器输出的不是分类结果而是连续实值

  • 基分类器

    • MH方法中,基学习器 h t ( i , l ) h_t(i,l) ht(i,l)以实数输出表示样本 x i x_i xi分到 l l l类别的可能程度
    • 二分类情况下: h t h_t ht建立 X ∗ Y − > R X*Y->R XY>R的映射
    • 多分类情况下: h t h_t ht建立 X − > 2 Y X->2^Y X>2Y的映射(即用L维数组表示某样本分别分到L个类别的情况)
  • 损失计算

    • 基学习器训练时目标是最小化损失

    • 二分类:

      • 损失 ϵ t = 1 m ∑ i I [ h t ( x i ) ≠ y i ] \epsilon_t=\frac1m\sum_iI[h_t(x_i)\neq{y_i}] ϵt=m1iI[ht(xi)=yi]
    • 多分类/多标签:

      • 提出 Hamming Loss

        • h t h_t ht输出的L维向量 2 Y 2^Y 2Y,当 x i x_i xi属于第l类时, Y [ l ] = 1 Y[l]=1 Y[l]=1,否则 Y [ l ] = − 1 Y[l]=-1 Y[l]=1

        • 定义Hamming Loss:
          h l o s s D ( h ) = 1 L E ( x , Y ) , D [ ∣ h ( x ) Δ Y ∣ ] hloss_D(h)=\frac1LE_{(x,Y),D}[|h(x)\Delta{Y}|] hlossD(h)=L1E(x,Y),D[h(x)ΔY]
          即真实向量与预测向量不一致元素个数对类别数算术平均

  • 优化/权值更新

    • 二分类

      • 优化目标是最小化单步下的所有分类指数损失之和
        Z t = ∑ i D t ( i ) e x p ( − α i y i h t ( x i ) ) Z_t=\sum_iD_t(i)exp(-\alpha_iy_ih_t(x_i)) Zt=iDt(i)exp(αiyiht(xi))
        在基学习器确定情况下,使 X t X_t Xt最小的 α i \alpha_i αi满足:
        α i = 1 2 l n ( 1 + r t 1 − r t )         ( r t = ∑ i D t ( i ) y i h t ( x i ) ) \alpha_i=\frac12ln(\frac{1+r_t}{1-r_t})\ \ \ \ \ \ \ (r_t=\sum_iD_t(i)y_ih_t(x_i)) αi=21ln(1rt1+rt)       (rt=iDt(i)yiht(xi))
        有基学习器 h t h_t ht误分类概率:
        P ( h t ( x i ) ≠ y i ) = 1 − r t 2 P(h_t(x_i)\neq{y_i})=\frac{1-r_t}{2} P(ht(xi)=yi)=21rt
        即最小化指数损失和=>最大化 r t r_t rt=>最小化基分类器误分类概率,证明了基学习器训练目标为最小化误分类概率

      • 找到符合上述最优条件的一组自然特例

        • h t ∈ { − 1 , 0 , + 1 } h_t\in\{-1,0,+1\} ht{1,0,+1}

        • 定义: W b = ∑ i : u i = b D t ( i ) W_b=\sum_{i:u_i=b}D_t(i) Wb=i:ui=bDt(i),此处 u i = y i h t ( x i ) u_i=y_ih_t(x_i) ui=yiht(xi),即类权值和 W b W_b Wb是预测值为b的所有样本权值和

        • 此时
          Z t = ∑ i D t ( i ) e x p ( − α u i ) = W 0 + W − 1 e α + W + 1 e − α Z_t=\sum_iD_t(i)exp(-\alpha u_i)=W_0+W_{-1}e^\alpha+W_{+1}e^{-\alpha} Zt=iDt(i)exp(αui)=W0+W1eα+W+1eα

        • α = W + W − \alpha=\frac{W_+}{W_{-}} α=WW+时, Z t Z_t Zt取得最小值
          Z m i n = W 0 + 2 W − 1 + W + 1 Z_{min}=W_0+2\sqrt{W_{-1}+W_{+1}} Zmin=W0+2W1+W+1

        • 因此有基学习器权值更新:

        α t = 1 2 l n ( W + W − ) \alpha_{t}=\frac12ln(\frac{W_+}{W_-}) αt=21ln(WW+)

        • 样本分布更新

        D t + 1 ( i ) = D t ( i ) e x p ( − y i h t ( x i ) ) / Z t D_{t+1}(i)=D_t(i)exp(-y_ih_t(x_i))/Z_t Dt+1(i)=Dt(i)exp(yiht(xi))/Zt

      • 就具体实现而言基学习器使用决策树,将样本空间划分为M个子空间 ( X 1 , . . . , X M ) (X_1,...,X_M) (X1,...,XM)

      • 定义: W b j = ∑ i : x i ∈ X j ; y i = b D t ( i ) W_b^j=\sum_{i:x_i\in{X_j};y_i=b}D_t(i) Wbj=i:xiXj;yi=bDt(i)

      • 每个子空间对应一个输出值 c j = W + j W − j c_j=\frac{W_+^j}{W_-^j} cj=WjW+j

      • Z t = ∑ i : x i ∈ X j ( W + j e − c j + W − j e c j ) Z_t=\sum_{i:x_i\in{X_j}}(W_+^je^{-c_j}+W_-^je^{c_j}) Zt=i:xiXj(W+jecj+Wjecj),最小值 Z t m i n = 2 ∑ j W + j W − j Z_{tmin}=2\sum_j\sqrt{W_+^jW_-^j} Ztmin=2jW+jWj

    • 多分类

      • 与二分类基本一致

      • 有基学习器权值更新:
        α t = 1 2 l n ( 1 + r t 1 − r t ) r t = ∑ i , l D t ( i , l ) Y i [ l ] h t ( i , l ) Z t − m i n = 1 − r t 2 \alpha_t=\frac12ln(\frac{1+r_t}{1-r_t})\\ r_t=\sum_{i,l}D_t(i,l)Y_i[l]h_t(i,l)\\ Z_{t-min}=\sqrt{\frac{1-r_t}2} αt=21ln(1rt1+rt)rt=i,lDt(i,l)Yi[l]ht(i,l)Ztmin=21rt

      • 样本分布更新:
        D t + 1 ( i , l ) = D t ( i , l ) e x p ( − α t Y i [ l ] h t ( i , l ) ) Z t D_{t+1}(i,l)=\frac{D_t(i,l)exp(-\alpha_tY_i[l]h_t(i,l))}{Z_t} Dt+1(i,l)=ZtDt(i,l)exp(αtYi[l]ht(i,l))

      • 结合决策树区域划分:

        • KaTeX parse error: Undefined control sequence: \and at position 38: …,l)[x_i\in{X_j}\̲a̲n̲d̲ ̲Y_i[l]=b]
        • c j l = 1 2 l n ( W + j l W − j l ) c_{jl}=\frac12ln(\frac{W_+^{jl}}{W_-^{jl}}) cjl=21ln(WjlW+jl)
        • Z t − m i n = 2 ∑ i l W + j l W − j l Z_{t-min}=2\sum_{il}\sqrt{W_+^{jl}W_-^{jl}} Ztmin=2ilW+jlWjl

Adaboost.MO (Output Coding)

来源:Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

在这里插入图片描述

  • 输出编码策略:

    • 在MH方法的基础上对损失衡量方法进行改进

    • 定义映射 λ : y − > 2 k ′ \lambda:y->2^{k'} λ:y>2k,有限制 k ′ = ∣ Y ′ ∣ ≠ ∣ Y ∣ = k k'=|Y'|\neq{|Y|}=k k=Y=Y=k,即对原始类别标签结果进行编码,希望编码后的向量之间Hamming距离尽可能的远

    • 目标可表示为:
      a r g   m i n y ∈ Y ∑ y ′ ∈ Y ′ e x p ( − λ ( y ) [ y ′ ] f ( x , y ′ ) ) \underset{y\in{Y}}{arg\ min}\sum_{y'\in{Y'}} exp(-\lambda(y)[y']f(x,y')) yYarg minyYexp(λ(y)[y]f(x,y))

Adaboost.ECC

来源:Guruswami V , Sahai A . Multiclass Learning, Boosting, and Error-Correcting Codes. ACM, 2000.

在这里插入图片描述

  • 编码方式:Error-Correcting Codes
  • 损失函数:加权下误分类数量和
  • 编码矩阵M
    • 矩阵规格: M ∈ { ± 1 } C ∗ T M\in\{\pm1\}^{C*T} M{±1}CT
    • M中第c行 M ( c ) M(c) M(c)表示第 c c c类的类别编码
    • M中的每一列表示C个类别下样本的二元划分
    • 编码矩阵的构建
      • 对于前向分步方法中的每一步(第t步),都有其对应编码矩阵 M . t M_{.t} M.t
      • 在.ECC与.OC方法中,每步中 M . t M_{.t} M.t h t h_t ht的求解是两阶段优化问题
      • 每步中先计算的 U t U_t Ut是在新权重下所有样本编码距离之和, M . t M_{.t} M.t的优化目标是最小化 U t U_t Ut
      • 在最优化的 M . t M_{.t} M.t下,求解使损失最小的 h t h_t ht

Adaboost.OC

**来源:Schapire, R.E., 1997. Using output codes to boost multiclass learning problems. In: Proc. 14th Intl. Conf. Machine Learning. Nashville, TN, USA, pp. 313–321 **

在这里插入图片描述

  • 编码方式:Error-Correcting Codes(编码矩阵构建方式与ECC一致)
  • 损失函数:PSEUDOLOSS

Adaboost.MR

来源:Singer S Y . Improved Boosting Algorithms Using Confidence-rated Predictions[J]. Machine Learning, 1999.

在这里插入图片描述

  • 提出新的Loss方法Rank Loss

    • 定义映射: f : X ∗ Y − > R f:X*Y->R f:XY>R,表示样本X分到y类的Rank(认为分类正确的情况下Rank会更高)

    • 定义Missorder pair(分错类的Rank比正确分类高):
      l 0 ∉ Y i , l 1 ∈ Y i , 而 f ( x i , l 1 ) ≤ f ( x i , l 0 ) l_0\notin{Y_i},l_1\in{Y_i},而f(x_i,l_1)\leq{f(x_i,l_0)} l0/Yi,l1Yi,f(xi,l1)f(xi,l0)

    • 定义Rank Loss
      r l o s s D , f = E ( x , y ) ∼ D ( ( l 0 , l 1 ) ∈ ( Y − y i ) ∗ y i : f ( x i , l 1 ) ≤ f ( x i , l 0 ) ∣ y i ∣ ∣ Y − y i ∣ ) rloss_{D,f}=E_{(x,y)\sim{D}}(\frac{(l_0,l_1)\in(Y-y_i)*y_i:f(x_i,l_1)\leq{f(x_i,l_0)}}{|y_i||Y-y_i|}) rlossD,f=E(x,y)D(yiYyi(l0,l1)(Yyi)yi:f(xi,l1)f(xi,l0))

LogitAdaboost & Gentle Adaboost

来源:Friedman J , Hastie T , Tibshirani R . Additive logistic regression: a statistical view of boosting (With discussion and a rejoinder by the authors)[J]. Annals of Statistics, 2000, 28(2):337-374.

  • 核心特点:将adaboost视作逻辑回归的线性组合,通过牛顿法梯度下降进行前向分步优化

LogitAdaboost

在这里插入图片描述

  • 二分类

    • 定义模型(加性逻辑回归)
      H ( x ) = [ F ( x ) ] = s i g n [ ∑ t = 1 T f m ( x ) ] H(x)=[F(x)]=sign[\sum_{t=1}^Tf_m(x)] H(x)=[F(x)]=sign[t=1Tfm(x)]

    • 预测值 y ∗ = 1 y^*=1 y=1的概率可以表示为
      p ( x ) = e F ( x ) e F ( x ) + e − F ( x ) p(x)=\frac{e^{F(x)}}{e^{F(x)}+e^{-F(x)}} p(x)=eF(x)+eF(x)eF(x)
      证明:
      J ( F ) = E ( e − y F ( x ) ) E ( e − y F ( x ) ∣ x ) = P ( y = 1 ∣ x ) e − F ( x ) + P ( y = − 1 ∣ x ) e F ( x ) 令 : ∂ J ( F ) ∂ F = − P ( y = 1 ∣ x ) e − F ( x ) + P ( y = − 1 ∣ x ) e F ( x ) = 0 得 : F ( x ) = 1 2 l o g P ( y = 1 ∣ x ) P ( y = − 1 ∣ x ) 也 即 P ( y = 1 ∣ x ) = p ( x ) = e F ( x ) e F ( x ) + e − F ( x ) \begin{aligned} &J(F)=E(e^{-yF(x)})\\ &E(e^{-yF(x)}|x)=P(y=1|x)e^{-F(x)}+P(y=-1|x)e^{F(x)}\\ &令:\frac{\partial J(F)}{\partial{F}}=-P(y=1|x)e^{-F(x)}+P(y=-1|x)e^{F(x)}=0\\ &得:F(x)=\frac12log\frac{P(y=1|x)}{P(y=-1|x)}\\ &也即P(y=1|x)=p(x)=\frac{e^{F(x)}}{e^{F(x)}+e^{-F(x)}} \end{aligned} J(F)=E(eyF(x))E(eyF(x)x)=P(y=1x)eF(x)+P(y=1x)eF(x)FJ(F)=P(y=1x)eF(x)+P(y=1x)eF(x)=0F(x)=21logP(y=1x)P(y=1x)P(y=1x)=p(x)=eF(x)+eF(x)eF(x)

    • 使用对数似然损失
      L ( y ∗ , P ( x ) ) = y ∗ ∗ l o g ( P ( x ) ) + ( 1 − y ∗ ) ∗ l o g ( 1 − P ( x ) ) L(y^*,P(x))=y^**log(P(x))+(1-y^*)*log(1-P(x)) L(y,P(x))=ylog(P(x))+(1y)log(1P(x))
      在前向分步过程中,将模型累加过程表示为: F = F + f F = F+f F=F+f,其似然
      E [ L ( F + f ) ] = E [ y ∗ ∗ l o g ( e F + f e F + f + e − ( F + f ) ) + ( 1 − y ∗ ) ∗ l o g ( e − ( F + f ) e F + f + e − ( F + f ) ) ] E[L(F+f)]=E[y^**log(\frac{e^{F+f}}{e^{F+f}+e^{-(F+f)}})+(1-y^*)*log(\frac{e^{-(F+f)}}{e^{F+f}+e^{-(F+f)}})] E[L(F+f)]=E[ylog(eF+f+e(F+f)eF+f)+(1y)log(eF+f+e(F+f)e(F+f))]
      损失对f求导,得:
      s ( x ) = ∂ E l ( F + f ) ∂ f = 2 E [ y ∗ − P ( x ) ∣ x ] H ( x ) = ∂ 2 E l ( F + f ) ∂ f 2 = − 4 E [ P ( x ) ( 1 − P ( x ) ) ∣ x ] s(x)=\frac{\partial{El(F+f)}}{\partial{f}}=2E[y^*-P(x)|x]\\ H(x)=\frac{\partial^2{El(F+f)}}{\partial{f^2}}=-4E[P(x)(1-P(x))|x] s(x)=fEl(F+f)=2E[yP(x)x]H(x)=f22El(F+f)=4E[P(x)(1P(x))x]
      由二阶展开推导的梯度下降法:
      F ( x ) = F ( x ) − s ( x ) H ( x ) = F ( x ) + 1 2 E w [ y ∗ − P ( x ) P ( x ) ( 1 − P ( x ) ) ∣ x ] \begin{aligned} F(x)&=F(x)-\frac{s(x)}{H(x)}\\ &=F(x)+\frac12E_w[\frac{y^*-P(x)}{P(x)(1-P(x))}|x] \end{aligned} F(x)=F(x)H(x)s(x)=F(x)+21Ew[P(x)(1P(x))yP(x)x]
      综上,每步求 f f f可表示为:
      f = E w f ( F ( x ) + 1 2 y ∗ − P ( x ) P ( x ) ( 1 − P ( x ) ) − ( F ( x ) + f ( x ) ) ) 2 = E w f ( f ( x ) − 1 2 y ∗ − P ( x ) P ( x ) ( 1 − P ( x ) ) ) 2 f=\underset{f}{E_w}(F(x)+\frac12\frac{y^*-P(x)}{P(x)(1-P(x))}-(F(x)+f(x)))^2\\ =\underset{f}{E_w}(f(x)-\frac12\frac{y^*-P(x)}{P(x)(1-P(x))})^2 f=fEw(F(x)+21P(x)(1P(x))yP(x)(F(x)+f(x)))2=fEw(f(x)21P(x)(1P(x))yP(x))2
      也即用基学习器学习 1 2 y ∗ − P ( x ) P ( x ) ( 1 − P ( x ) ) \frac12\frac{y^*-P(x)}{P(x)(1-P(x))} 21P(x)(1P(x))yP(x)

    • 样本权重更新:
      w t + 1 ( i ) = w t ( i ) ∗ e y ∗ f ( x i ) Z t ( i ) Z t ( i ) = y ∗ − P ( x i ) P ( x ) ( 1 − P ( x i ) ) w_{t+1}(i)=\frac{w_t(i)*e^{y^*f(x_i)}}{Z_t(i)}\\ Z_t(i)=\frac{y^*-P(x_i)}{P(x)(1-P(x_i))} wt+1(i)=Zt(i)wt(i)eyf(xi)Zt(i)=P(x)(1P(xi))yP(xi)
      得:
      w t + 1 ( i ) = P ( x i ) ( 1 − P ( x i ) ) w_{t+1}(i)=P(x_i)(1-P(x_i)) wt+1(i)=P(xi)(1P(xi))

  • 多分类情况下类似,具体更新方式见图

在这里插入图片描述

Gentle Adaboost

在这里插入图片描述

  • 形式上类似Real Adaboost
    H ( x ) = s i g n ( ∑ t α t h ( x ) ) H(x)=sign(\sum_t\alpha_th_(x)) H(x)=sign(tαth(x))
    但Real Adaboost中,前向分布每一步的更新是通过交替优化参数方法实现的

    在Gentle Adaboost中,每步的更新与LogitAdaboost类似,是通过梯度下降的方法完成的(对加权平方误差进行梯度下降)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值