集成学习（一）：AdaBoost原理

最新推荐文章于 2024-03-06 17:21:58 发布

m_buddy

最新推荐文章于 2024-03-06 17:21:58 发布

阅读量608

点赞数 2

分类专栏：机器学习文章标签： Adaboost原理

本文链接：https://blog.csdn.net/m_buddy/article/details/79010857

版权

机器学习专栏收录该内容

34 篇文章 3 订阅

订阅专栏

前言

AdaBost算法是Boosting族算法最著名的代表。这一族算法的工作机制也是很类似的：先从初始训练集训练处一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续收到更多关注，然后基于调整之后的的样本分布来训练下一个基学习器；日此往复，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权组合。
由于这里重点介绍的是AdsBoost算法，接下来就将介绍其原理和算法步骤。

1. 算法原理

这里讲解AdaBoost算法的推导，使用的是“加性模型”，既基学习器的线性组合

H (x) = \sum t = 1 T α t h t (x)

$H(x) = \sum_{t=1}^T\alpha_th_t(x)$
其中，

ht(x) $h_t(x)$ 是代表一个基学习器，

αt $\alpha_t$ 是代表权重。然后定义最小化指数损失函数

L e x p (H | D) = E x D [e - f (x) H (x)]

$L_{exp}(H|D) = E_{x~D}[e^{-f(x)H(x)}]$
其中D代表的是两个分类，这里使用的是

±1 $\pm1$ 表示。在AdaBoost算法中，第一个基分类器

h1 $h_1$ 是通过直接将基学习算法用于初始数据分布而得；伺候迭代地生成

ht $h_t$ 和

αt $\alpha_t$ ，当基分类器

ht $h_t$ 基于分布

Dt $D_t$ 产生后，该及分类器的权重

αt $\alpha_t$ 应使得

αtht $\alpha_th_t$ 最小化指数函数

L e x p (α t h t) = E x D t [e - f (x) α t h t (x)] = E x D t [e - α t Π (f (x) = h t (x)) + e α t Π (f (x) \neq h t (x))] = e - α t P x D t (f (x) = h t (x)) + e α t P x D t (f (x) \neq h t (x)) = e - α t (1 - ϵ t) + e α t ϵ t

$\begin{align} L_{exp}(\alpha_th_t) & = E_{x~D_t}[e^{-f(x)\alpha_th_t(x)}] \\ & = E_{x~D_t}[e^{-\alpha_t}Π(f(x)=h_t(x))+e^{\alpha_t}Π(f(x)\neq h_t(x))] \\ & = e^{-\alpha_t}P_{x~D_t}(f(x)=h_t(x))+e^{\alpha_t}P_{x~D_t}(f(x)\neq h_t(x)) \\ & = e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t \\ \end{align}$
其中

ϵt=Px Dt(ht(x)≠f(x)) $\epsilon_t = P_{x~D_t}(h_t(x)\neq f(x))$ ，也就是分类错误率。在对指数损失函数求偏导得到

\partial L e x p ( α t h t | D t ) \partial α t = - e α t (1 - ϵ t) + e α t ϵ t

$\frac{\partial L_{exp}(\alpha_th_t|D_t)}{\partial \alpha_t} = -e^{\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t$
令偏导数为零，得到

α t = 1 2 l n (1 - ϵ t ϵ t)

$\alpha_t = \frac{1}{2}ln(\frac{1-\epsilon_t}{\epsilon_t})$
AdaBoost
算法在获得

Ht−1 $H_{t-1}$ 之后仰恩分布将进行调整，使下一轮的基学习器

ht $h_t$ 能够修成

Ht−1 $H_{t-1}$ 的错误。理想的

ht $h_t$ 能修正

Ht−1 $H_{t-1}$ 的全部错误，既最小化

L e x p (H t - 1 + h t | D) = E x D [e - f (x) (H t - 1 (x) + h t (x))] = E x D [e - f (x) (H t - 1 (x)) e - f (x) h t (x)]

$\begin{align} L_{exp}(H_{t-1}+h_t|D) & = E_{x~D}[e^{-f(x)(H_{t-1}(x)+h_t(x))}] \\ & = E_{x~D}[e^{-f(x)(H_{t-1}(x))}e^{-f(x)h_t(x)}] \end{align}$
由于

f2(x)=h2(x)=1 $f^2(x)=h^2(x)=1$ ，上面式子中的

e−f(x)ht(x) $e^{-f(x)h_t(x)}$ 的泰勒展开近似为

L e x p (H t - 1 + h t | D) ≃ E x D [e - f (x) (H t - 1 (x)) (1 - f (x) h t (x) + f 2 ( x ) h 2 t ( x ) 2] = E x D [e - f (x) (H t - 1 (x)) (1 - f (x) h t (x) + 1 2]

$\begin{align} L_{exp}(H_{t-1}+h_t|D) & \simeq E_{x~D}[e^{-f(x)(H_{t-1}(x))}(1-f(x)h_t(x)+\frac{f^2(x)h_t^2(x)}{2}] \\ & = E_{x~D}[e^{-f(x)(H_{t-1}(x))}(1-f(x)h_t(x)+\frac{1}{2}] \end{align}$
在最优化的过程中是最小化指数损失函数

h t (x) = a r g min h L e x p (H t - 1 (x) + h t | D) = a r g min h E x D [e - f (x) (H t - 1) (x) (1 - f (x) h t (x) + 1 2] = a r g max h E x D [e - f (x) (H t - 1 (x)) f (x) h t (x)] = a r g max h E x D [e - f ( x ) H t - 1 ( x ) E x D [ e - f ( x ) H t - 1 ( x ) ] f (x) h t (x)]

$\begin{align} h_t(x) &= arg\min_{h}L_{exp}(H_{t-1}(x)+h_t|D)\\ & = arg\min_{h}E_{x~D}[e^{-f(x)(H_{t-1})(x)}(1-f(x)h_t(x)+\frac{1}{2}] \\ & = arg\max_{h}E_{x~D}[e^{-f(x)(H_{t-1}(x))}f(x)h_t(x)] \\ & = arg\max_{h}E_{x~D}[\frac{e^{-f(x)H_{t-1}(x)}}{E_{x~D}[e^{-f(x)H_{t-1}(x)}]}f(x)h_t(x)] \end{align}$
注意到

Ex D[e−f(x)Ht−1(x)] $E_{x~D}[e^{-f(x)H_{t-1}(x)}]$ 是一个常数。令

Dt $D_t$ 表示一个分布

D t (x) = D ( x ) e - f ( x ) H t - 1 ( x ) E x D [ e - f ( x ) H t - 1 ( x ) ]

$D_t(x) = \frac{D(x)e^{-f(x)H_{t-1}(x)}}{E_{x~D}[e^{-f(x)H_{t-1}(x)}]}$
则根据数学期望的定义，这等价于令

h t (x) = a r g max h E x D [e - f ( x ) H t - 1 ( x ) E x D [ e - f ( x ) H t - 1 ( x ) ] f (x) h t (x)] = a r g max h E x D t [f (x) h t (x)]

$\begin{align} h_t(x) &= arg\max_hE_{x~D}[\frac{e^{-f(x)H_{t-1}(x)}}{E_{x~D}[e^{-f(x)H_{t-1}(x)}]}f(x)h_t(x)] \\ & = arg\max_hE_{x~D_t}[f(x)h_t(x)] \end{align}$
由

f(x) $f(x)$ ，

h(x)∈−1,+1 $h(x)\in {-1, +1}$ ，有

f (x) h (x) = 1 - 2 Π (f (x) \neq f (x))

$f(x)h(x) = 1 - 2Π(f(x)\neq f(x))$
则

h t (x) = a r g min h E x D t [Π (f (x) \neq f (x))]

$h_t(x) = arg\min_hE_{x~D_t}[Π(f(x)\neq f(x))]$

Dt $D_t$ 于

Dt+1 $D_{t+1}$ 的关系有

D t + 1 = D ( x ) e - f ( x ) H t ( x ) E x D [ e - f ( x ) H t ( x ) ] f (x) h t (x)] = D ( x ) e - f ( x ) H t - 1 ( x ) e - f ( x ) α t h t ( x ) E x D [ e - f ( x ) H t ( x ) ] = D t (x) e - f (x) α t h t (x) E x D [ e - f ( x ) H t - 1 ( x ) ] E x D [ e - f ( x ) H t ( x ) ]

$\begin{align} D_{t+1} &= \frac{D(x)e^{-f(x)H_{t}(x)}}{E_{x~D}[e^{-f(x)H_{t}(x)}]}f(x)h_t(x)] \\ & = \frac{D(x)e^{-f(x)H_{t-1}(x)}e^{-f(x)\alpha_th_{t}(x)}}{E_{x~D}[e^{-f(x)H_{t}(x)}]} \\ & = D_t(x)e^{-f(x)\alpha_th_{t}(x)}\frac{E_{x~D}[e^{-f(x)H_{t-1}(x)}]}{E_{x~D}[e^{-f(x)H_{t}(x)}]} \end{align}$
这里从基于加性模型迭代式，优化指数损失函数的角度推导了AdaBoost算法。