提升方法笔记

最新推荐文章于 2022-07-05 10:57:09 发布

DaMeng999

最新推荐文章于 2022-07-05 10:57:09 发布

阅读量165

点赞数

分类专栏：机器学习文章标签： adaboost算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DaMeng999/article/details/121073386

版权

机器学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

提升方法在分类问题中通过改变训练样本的权重，学习多个分类器，并将这些分类器线性组合来提高分类的性能。提升方法需要解决一下两个问题：

每一轮如何改变训练数据的权值分布
如何将若分类器组合得到一个强分类器

对应的解决方法分别是：

提高前一轮弱分类器错误分类样本的权值，降低那些被正确分类样本的权值
加权多数表决，加大分类误差率小的若分类求得权值，减小分类误差率大的弱分类器的权值

1. 算法流程

1.1 AdaBoost 算法

输入：二分类样本训练集：

$T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}$

输出：最终分类器 $G(x)$

（1）初始化训练数据的权值分布，即每个训练数据集具有均匀的权值分布

$D_1=(w_{11},w_{12},...,w_{1N}), \,\, w_{1i}=\frac{1}{N},\,\, i=1,2,...,N$

（2）对 m=1,2,...,M

（a）使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器

$G_m(x): X\rightarrow \left \{ -1,+1 \right \}$

（b）计算 $G_m(x)$ 在训练数据集上的分类误差率，误差率的值是被 $G_m(x)$ 误分类样本的权值之和。

$e_m = \sum_{i=1}^P(G_m(x)\neq y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_I)\neq y_i)$

（c）计算 $G_m(x)$ 的系数

$\alpha_m=\frac{1}{2}ln\frac{1-e_m}{e_m}$

可以看出，当 $e_m\leqslant \frac{1}{2}$ 时， $\alpha_m\geqslant 0$ ，并且随着 $e_m$ 的减小， $\alpha_m$ 在增大。所以分类误差率越小的基本分类器在最终分类器中的作用越大。

（d）更新训练数据集的权值分布

$D_{m+1}=(w_{m+1,1},...,w_{m+1,N})$

$w_{m+1,i}=\frac{w_{m,i}}{Z_m}e^{-\alpha_my_iG_m(x_i)},\,\,i=1,2,...,N$

其中， $Z_m$ 是规范化因子：

$Z_m = \sum_{i=1}^Nw_{m,i}e^{-\alpha_my_iG_m(x_i)}$

可以看到，被误分类的样本的权值得以扩大，正确分类样本的权值缩小。

（3）构建基本分类器的线性组合

$f(x)=\sum_{i=1}^M\alpha_mG_m(x)$

得到最终分类器

$G(x)=sign(f(x))$

$f(x)$ 的符号决定实例 x 的类别，绝对值表示分类的确信度。

2. 训练误差分析

2.1 训练误差界

AdaBoost 算法最终分类器的训练误差界为：

$\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leqslant \frac{1}{N}\sum_ie^{-y_if(x_i)}=\prod _mZ_m$

2.2 二分类问题的训练误差界

$\prod _{m=1}^M Z_m=\prod_{m=1}^M\left [ 2\sqrt{e_m(1-e_m)} \right ]=\prod_{m=1}^M\sqrt{1-4\gamma _m^2}$

其中

$\gamma_m=\frac{1}{2}-e_m$

2.3 推论

如果存在 $\gamma>0$ ，对所有 m 有 $\gamma_m\geqslant \gamma$ ，则

$\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leqslant e^{-2M\gamma ^2}$

这表明 AdaBoost 的训练误差是指数下降的。

3. 算法解释

AdaBoost 算法可以被认为是加法模型，损失函数为指数函数，学习算法为前向分布算法的二分类学习方法。

3.1 前向分步算法

考虑加法模型

$f(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m)$

其中， $b(x;\gamma_m)$ 为基函数， $\gamma_m$ 是基函数的参数， $\beta_m$ 是基函数的系数。

在给定训练数据及损失函数 $L(y,f(x))$ 的条件下，学习加法模型 $f(x)$ 成为经验风险极小化即损失函数极小化问题：

$\underset{\beta_m,\gamma_m}{min}\,\sum_{i=1}^NL(y_i,\sum_{m=1}^M\beta_m b(x_i;\gamma_m))$

前向分步算法求解该问题的想法是：因为学习的是加法模型，如果能从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，那就可以简化其复杂度。

由该想法得，每一步只需要优化如下损失函数：

$\underset{\beta, \gamma}{min}\,\sum_{i-1}^NL(y_i,\beta b(x_i;\gamma))$

3.1.1 算法流程

输入：训练数据集 T ，损失函数 $L(y,f(x))$ ，基函数 $b(x;\gamma)$

输出：加法模型 $f(x)$

（1）初始化 $f_0(x)=0$

（2）对 m = 1,2,..,M

（a）极小化损失函数得到参数 $(\beta_m,\gamma_m)$

$(\beta_m,\gamma_m)=arg\,\underset{\beta,\gamma}{min}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$

（b）更新

$f_m(x)=f_{m-1}(x)+\beta b(x;\gamma)$

（3）得到加法模型

$f(x)=f_M(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m)$

4. 提升树

提升树是以分类树或回归树为基本分类器的提升方法，提升树被认为是统计学习中性能最好的方法之一。

4.1 模型

提升方法实际采用的是加法模型（基函数的线性组合）与前向分步算法。以决策树为基函数的提升方法称作提升树。其表示如下：

$f_M(x)=\sum_{i=1}^MT(x;\theta _m)$

其中 $T(\cdot )$ 表示一个决策树， $\theta_m$ 表示参数，M 为树的个数

4.2 提升树算法

针对不同问题的提升树算法，主要区别在于使用的损失函数不同，如用平方误差损失函数来处理回归问题，用指数损失函数处理分类问题，一般损失函数处理一般决策问题。

4.2.1 回归问题的提升树算法

输入：训练数据集 T

输出：提升树 $f_M(x)$

（1）初始化 $f_0(x)=0$

（2）对 m = 1,2,...,M

（a）计算残差

$r_{m,i}=y_i-f_{m-1}(x_i)$

（b）拟合残差 $r_{m,i}$ 学习一个回归树得到 $T(x;\theta _m)$

（c）更新 $f_m(x)=f_{m-1}(x)+T(x;\theta_m)$

（3）得到提升回归树 $f_M(x)=\sum_{i=1}^MT(x;\theta_m)$

4.3 梯度提升

对一般损失函数而言，每一步的参数优化相对困难，因此提出了梯度提升算法，即最速下降法的近似方法，该方法的关键是利用损失函数的负梯度在当前模型的值：

$-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$

将该值作为回归问题提升树算法中的残差近似值，拟合得到一个回归树。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
提升方法笔记

提升方法在分类问题中通过改变训练样本的权重，学习多个分类器，并将这些分类器线性组合来提高分类的性能。提升方法需要解决一下两个问题：每一轮如何改变训练数据的权值分布如何将若分类器组合得到一个强分类器对应的解决方法分别是：提高前一轮弱分类器错误分类样本的权值，降低那些被正确分类样本的权值加权多数表决，加大分类误差率小的若分类求得权值，减小分类误差率大的弱分类器的权值1. 算法流程1.1 AdaBoost 算法输入：二分类样本训练集：输出：最终分...
复制链接

扫一扫

专栏目录

DaMeng999 CSDN认证博客专家 CSDN认证企业博客

码龄4年

20: 原创

16万+: 周排名

44万+: 总排名

1万+: 访问

: 等级

209: 积分

4: 粉丝

6: 获赞

1: 评论

63: 收藏

私信

关注

热门文章

分类专栏

twsvm 3篇
机器学习 15篇
文献阅读 1篇
python 1篇

最新评论

LS-TWSVM
2201_75356056: 有没有代码啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。