集成学习一Boosting

最新推荐文章于 2024-06-29 18:46:39 发布

loveitlovelife

最新推荐文章于 2024-06-29 18:46:39 发布

阅读量842

点赞数

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79392187

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

+个体与集成
+Boosting
+Bagging与Random Forest
+结合策略
+多样性

个体与集成

这里写图片描述
同质：只包含同种类型的个体学习器，相应的算法为“基学习器”。有时候基学习器被称为弱学习器。

异质：包含多种个体学习器，个体学习器为“组件学习器”。

集成条件：个体学习器好而不同，即个体学习器要有一定的“准确性”，而且要有“多样性”。

研究核心：个体学习器的“准确性‘’和“多样性“存在冲突，准确性很高以后就要牺牲多样性，。产生并结合“好而不同”的个体学习器。
集成学习方法两大类：个体学习器之间存在强依赖关系，串行生成序列化方法：boosting；不存在强依赖关系，并行化方法：Bagging、Random Forest.

Boosting

工作机制：从初始训练集训练出基学习器，然后根据基学习器的表现对训练样本分布进行调整，使得先前的学习器做错的训练样本后续受到更多的关注，基于调整后的样本分布来训练下一个基学习器；重复进行直至基学习器数目达到事先指定的T值，然后将这T个基学习器进行加权结合。

AdaBoost描述：

输入：训练集D= $\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$
基学习算法： $\Lambda$
训练轮数：T.
过程：

1： $D_1(x)=1/m$

2 : $for t =1,2,...,T do$

3 : $\quad h_t =\Lambda(D,D_t);$

4 : $\quad \sigma_t =P_{x~D_t}(h_t(x) \neq f(x));$

5 : if $\sigma_t > 0.5$ then break

6 : $\alpha_t =\frac{1}{2}ln(\frac{1-\sigma_t}{\sigma_t});$

7 : $D_{t+1}(x)=\frac{D_t(x)}{Z_t} * \begin{cases} exp(-\alpha_t), & \text{if $h_t(x)=f(x)$ } \\ exp(\alpha_t), & \text{if $h_t(x) \neq f(x)$ } \end{cases}$

= $\frac{D_t(x)exp(-\alpha_t f(x)h_t(x))}{Z_t}$
8 : end for
输出： $H(x)=sign(\sum_{t=1}^T \alpha_th_t(x))$

AdaBoost推导过程：

原理：基于加性模型，即基学习器的线性组合 $H(x)=\sum_{t=1}^T\alpha_th_t(x)$ 来最小化指数损失函数， $l_{exp}(H|D)=E_{x~D}[e^{-f(x)H(x)}]$

对 $H(x)$ 求偏导并令其为0:

\partial l e x p ( H | D ) \partial H ( x ) = - e - H (x) P (f (x) = 1 | x) + e H (x) P (f (x) = - 1 | x) = 0

$\frac{\partial l_{exp}(H|D)}{\partial H(x)} =-e^{-H(x)}P(f(x)=1|x)+e^{H(x)P(f(x)=-1|x)}=0$
得到如下：

H (x) = 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x )

$H(x)=\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)}$ ,
有：

sign(H(x))=sign(12lnP(f(x)=1|x)P(f(x)=−1|x))={1,−1,P(f(x)=1|x)>P(f(x)=−1|x)P(f(x)=1|x)<P(f(x)=−1|x) s i g n ( H ( x ) ) = s i g n ( 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = − 1 | x ) ) = { 1 , P ( f ( x ) = 1 | x ) > P ( f ( x ) = − 1 | x ) − 1 , P ( f ( x ) = 1 | x ) < P ( f ( x ) = − 1 | x ) $sign(H(x))=sign(\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)})= \begin{cases} 1, & \text{$P(f(x)=1|x)>P(f(x)=-1|x) $} \\ -1, & \text{$P(f(x)=1|x)<P(f(x)=-1|x) $ } \end{cases}$

= $arg~max_{y \in \{-1,1\}} P(f(x)=y|x),$

则：指数损失最小，分类错误率也将最小，因此可将其作为优化目标。

在AdaBoost算法中，第一个基分类器 $h_1$ 是通过直接将基学习算法用于初始数据分布而得；此后迭代生成 $h_t$ 和 $\alpha_t$ ，当基分类器 $h_t$ 基于分布 $D_t$ 产生后，该分类器的权重 $\alpha_t$ 应使得 $\alpha_t h_t$ 最小化指数损失函数。

l e x p (α t h t | D t) = E x D t [e - f (x) α t h t (x)] = E x D t [e - α t I I (f (x) = h t (x)) + e α t I I (f (x) \neq h t (x))] = e - α t P x D t (f (x) = h t (x)) + e α t P x D t (f (x) \neq h t (x)) = e - α t σ t

$l_{exp}(\alpha_th_t|D_t) =E_{x~D_t}[e^{-f(x)\alpha_th_t(x)}] =E_{x~D_t}[e^{-\alpha_t} II(f(x)=h_t(x))+e^{\alpha_t} II(f(x)\neq h_t(x))] =e^{-\alpha_t}P_{x~D_t}(f(x)=h_t(x))+e^{\alpha_t}P_{x~D_t}(f(x) \neq h_t(x))=e^{-\alpha_t}\sigma _t$
其中：