集成学习

最新推荐文章于 2022-09-24 17:11:06 发布

布纸所云

最新推荐文章于 2022-09-24 17:11:06 发布

阅读量304

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/81481411

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

集成学习

集成学习通过构建结合多个学习器来完成任务，通常可以获得比单个学习器显著优越的泛化性能。

集成个体应该好而不同

Boosting 和Bagging

Boosting：个体学习器之间存在强依赖关系，必须串行生成的序列化方法，典型代表是adaboost。从偏差-方差的角度来分析，Boosting方法主要关注降低偏差。
Bagging：个体学习器之间不存在强依赖性，可同时生成的并行化方法，典型代表是Bagging和随机森林。Bagging主要关注于降低方差。Bagging方法每次对样本进行自助采样，随机森林在对样本采样的基础上引入随机属性选择。

Adaboost

Adaboost是Boosting方法的典型代表，将一系列的弱学习器组合成为强学习器，其基本思想是根据上一个弱分类器的分类结果，给予误分类样本更多的权重驯练当前的分类器，直至训练器达到既定的数目T，最终的决策函数为这T个弱分类器 $h_t(x)$ 的加权（ $\alpha_t$ ）组合，准确率越高的分类器权重越大：

H (x) = s i g n (\sum t = 1 T α t h t (x))

$H(x)=sign(\sum_{t=1}^{T}\alpha_t h_t(x))$

给定训练集 $(x_i,y_i)$ ， $y_i\in\{-1,1\},i=1,\cdots,n$
Adaboost训练的算法为：

初始化样本权重， $w_{1,i}=\frac{1}{n}$
for t=1:T
- 根据带权重 $w_{t,i}$ 的样本训练弱分类器 $h_t(x)$
- 计算该分类器在权重 $w_t$ 下的错误率 $ϵ t = \sum i w t , i I ( y i \neq h t ( x i ) ) \sum i w t , i$ $\epsilon_t=\frac{\sum_{i}w_{t,i}\mathcal{I}(y_i\neq h_t(x_i))}{\sum_{i}w_{t,i}}$
- 计算该弱分类器的权重
  $α t = 1 2 l n 1 - ϵ t ϵ t$ $\alpha_t=\frac{1}{2}ln\frac{1-\epsilon_t}{\epsilon_t}$
- 更新训练样本的权重
  $w t + 1, i = w t , i e x p ( - α t y i h t ( x i ) ) Z t$ $w_{t+1,i}=\frac{w_{t,i}exp(-\alpha_ty_ih_t(x_i))}{Z_{t}}$
  其中 $Z_{t}$ 为归一化系数，使得 $\sum_{i}{w_{t+1,i}}=1$

最后得到的强分类器为：

H (x) = E s i g n (\sum t = 1 T α t h t (x))

$H(x)=Esign(\sum_{t=1}^{T}\alpha_t h_t(x))$

Adaboost其实是最小化指数损失函数。

l e x p (H | D) = E x \sim D (e - f (x) H (x)) = e - H (x) P (f (x) = 1 | x) + e H (x) P (f (x) = - 1 | x)

$\begin{align*} l_{exp}(H|D)&=E_{x\sim D}(e^{-f(x)H(x)})\\ &=e^{-H(x)}P(f(x)=1|x)+e^{H(x)}P(f(x)=-1|x) \end{align*}$
对

H(x) H ( x ) $H(x)$ 求偏导：

\partial l e x p ( H | D ) \partial H ( x ) ⟹ = - e - H (x) p (f (x) = 1 | x) + e H (x) p (f (x) = - 1 | x) = 0 H (x) = 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x )

$\begin{align*} \frac{\partial l_{exp}(H|D)}{\partial H(x)}&=-e^{-H(x)}p(f(x)=1|x)+e^{H(x)}p(f(x)=-1|x)=0\\ \Longrightarrow \quad & H(x)=\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)} \end{align*}$
这里写图片描述

Adaboost证明

将 $w_{T+1}$ 迭代展开

$w T + 1, i = w T, i e x p ( - α T y i h T ( x i ) ) Z T = w T - 1, i e x p ( - α T - 1 y i h T - 1 ( x i ) ) Z T - 1 e x p ( - α T y i h T ( x i ) ) Z T = w T - 1, i e x p ( - α T - 1 y i h T - 1 ( x i ) - α T y i h T ( x i ) ) Z T Z T - 1 = \dots = w 1, i e x p ( - y i \sum T t = 1 α t h t ( x i ) ) \prod T t = 1 Z t = w 1, i e x p ( - y i H ( x i ) ) \prod T t = 1 Z t$ $\begin{align*} w_{T+1,i}&=w_{T,i}\frac{exp(-\alpha_Ty_ih_T{(x_i)})}{Z_T}\\ &=w_{T-1,i}\frac{exp(-\alpha_{T-1}y_ih_{T-1}{(x_i)})}{Z_{T-1}}\frac{exp(-\alpha_Ty_ih_T{(x_i)})}{Z_T}\\ &=w_{T-1,i}\frac{exp(-\alpha_{T-1}y_ih_{T-1}{(x_i)}-\alpha_Ty_ih_T{(x_i)})}{Z_TZ_{T-1}}\\ &=\cdots\\ &=w_{1,i}\frac{exp(-y_i\sum_{t=1}^{T}\alpha_th_t(x_i))}{\prod_{t=1}^{T}Z_{t}}\\ &=w_{1,i}\frac{exp(-y_iH(x_i))}{\prod_{t=1}^{T}Z_{t}} \end{align*}$
因为 $\sum_{i}w_{T+1,i}=1$
$\prod t = 1 T Z t = w 1, i \sum i e x p (- y i H (x i)) = 1 n \sum i e x p (- y i H (x i))$ $\prod_{t=1}^{T}Z_{t}=w_{1,i}\sum_{i}exp(-y_iH(x_i))=\frac{1}{n}\sum_{i}exp(-y_iH(x_i))$
训练误差

$E r r t r a i n (H (x)) = 1 n \sum i = 1 n l 0 / 1 (y i H (x i)) \leq 1 n \sum i = 1 n l e x p (y i H (x i)) = \prod t = 1 T Z t$ $\begin{align*} Err_{train}(H(x))&=\frac{1}{n}\sum_{i=1}^{n}l_{0/1}(y_iH(x_i))\\ &\leq \frac{1}{n}\sum_{i=1}^{n}l_{exp}(y_iH(x_i))=\prod_{t=1}^{T}Z_{t} \end{align*}$

从另一个角度看Adaboost：

前向逐步递增（Forward Stagewise Additive Model ）

要找到最优的模型很难，可以每次递增

损失函数： $L(y,f(x))$
目标函数： $\min\frac{1}{n} \sum_{i=1}^{n}L(y_i,f(x_i))$
前向逐步递增：
- 初始化： $f_0(x)=\frac{1}{n}argmin_{f}\sum_{i=1}^{n}L(y_i,f_0(x_i))$
- $f_{m}(x)=f_{m-1}(x)+\alpha_m\phi_m(x)$
- $(\alpha_m, \phi_m)=\frac{1}{n}argmin_{\alpha, \phi}\sum_{i=1}^{n}L(y_i,f_{m-1}(x)+\alpha_m\phi_m(x))$

Adaboost其实是在最小化指数损失函数
第 $m$ 步，最小化

L_{m} (y, f_{m} (x)) = E (e^{- y f_{m} (x)})

$L_m(y,f_m(x))=E(e^{-yf_m(x)})$

L m = 1 n \sum i e - y i f m (x i) = 1 n \sum i e - y i (f m - 1 (x i) + α m ϕ m (x i)) = 1 n \sum i e - y i f m - 1 (x i) e - α m y i ϕ m (x i) = 1 n (\sum y i = ϕ m (x i) e - α m w m, i + \sum y i \neq ϕ m (x i) e α m w m, i)

$\begin{align*} L_m&=\frac{1}{n}\sum_{i}e^{-y_if_m(x_i)}\\ &=\frac{1}{n}\sum_{i}e^{-y_i(f_{m-1}(x_i)+\alpha_m\phi_m(x_i))}\\ &=\frac{1}{n}\sum_{i}e^{-y_if_{m-1}(x_i)}e^{-\alpha_my_i\phi_m(x_i)}\\ &=\frac{1}{n}(\sum_{y_i=\phi_m(x_i)}e^{-\alpha_m}w_{m,i}+ \sum_{y_i\neq\phi_m(x_i)}e^{\alpha_m}w_{m,i}) \end{align*}$
选择

ϕm ϕ m $\phi_m$ 使得错误率最小

ϕ m (x) = a r g m i n ϕ \sum i w m, i (I (y i \neq ϕ (x i)))

$\phi_m(x)=argmin_{\phi}\sum_{i}w_{m,i}\mathcal(I(y_i\neq\phi(x_i)))$

如果损失函数选择L2损失，则称为L2 Boosting
在第m步，损失函数的形式为：

L (f m - 1 (x i) + α m ϕ m (x i), y i) = (f m - 1 (x i) + α m ϕ m (x i) - y i) 2 = ((y i - f m - 1 (x i)) - α m ϕ m (x i)) 2 = (r m, i - α m ϕ m (x i)) 2

$\begin{align*} L(f_{m-1(x_i)}+\alpha_m\phi_m(x_i),y_i)&=(f_{m-1}(x_i)+\alpha_m\phi_m(x_i)-y_i)^2\\ &=((y_i-f_{m-1}(x_i))-\alpha_m\phi_m(x_i))^2\\ &=(r_{m,i}-\alpha_m\phi_m(x_i))^2 \end{align*}$
其中

rm,i=yi−fm−1(xi) r m , i = y i − f m − 1 ( x i ) $r_{m,i}=y_i-f_{m-1}(x_i)$

Gradient Boosting

用一个弱学习器去学习当前状态下损失函数的负梯度
这里写图片描述

XGboost: eXtreme Gradient Boosting

损失函数采用泰勒展开二阶近似：
- Gradient Boosting虽然对常见的损失函数适用，但除了L2损失，其他损失函数的推导比较复杂
加入正则化：叶子节点数目，叶子节点分数
先建完全树后剪枝

泰勒公式展开
定理：
设 n 是一个正整数。如果定义在一个包含 a 的区间上的函数 f 在 a 点处 n+1 次可导，那么对于这个区间上的任意 x，都有：

$f (x) = f (a) + f ' ( a ) 1 ! (x - a) + f '' ( a ) 2 ! (x - a) 2 + \dots + f ( n ) ( x ) n ! (x - a) n + R n (x)$ $f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f''(a)}{2!}(x-a)^2+\cdots+\frac{f^{(n)}(x)}{n!}(x-a)^n+R_n(x)$
其中的多项式称为函数在 $a$ 处的泰勒展开式，剩余的 $R_{n}(x)$ 是泰勒公式的余项，是 $(x-a)^{n}$ 的高阶无穷小。
$e^x$ 的泰勒展开：
$e x \approx 1 + x + x 2 2 ! + \dots + x n n !$ $e^x\approx1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}$

参考资料

周志华机器学习
Boosting algorithm: AdaBoost

布纸所云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习

集成学习集成学习通过构建结合多个学习器来完成任务，通常可以获得比单个学习器显著优越的泛化性能。集成个体应该好而不同Boosting 和BaggingBoosting：个体学习器之间存在强依赖关系，必须串行生成的序列化方法，典型代表是adaboostBagging：个体学习器之间不存在强依赖性，可同时生成的并行化方法，典型代表是Bagging和随机森林。Ad...
复制链接

扫一扫