提升方法

最新推荐文章于 2021-12-19 15:45:19 发布

_BOTAK_

最新推荐文章于 2021-12-19 15:45:19 发布

阅读量298

点赞数

分类专栏：模式识别与机器学习学习笔记统计学习方法文章标签：提升方法 Adaboost boost tree

本文链接：https://blog.csdn.net/BOTAK_/article/details/103313712

版权

学习笔记同时被 3 个专栏收录

64 篇文章 0 订阅

订阅专栏

模式识别与机器学习

14 篇文章 1 订阅

订阅专栏

统计学习方法

11 篇文章 0 订阅

订阅专栏

提升方法

提升方法是指将弱学习算法提升为强学习算法的统计学习算法。在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列的基本分类器（若分类器），并将这些基本分类器线形组合，构成一个强分类器。

提升方法Adaboost算法

Adaboost算法的特点是通过迭代每次学习一个基本的分类器，每一次的迭代中，提高那些被前一轮分类器错误分类的数据的权值，而降低那些被正确分类数据的权值。最后，Adaboost将基本分类器的线形组合作为强分类器，其中，分类误差率小的基本分类器较大的权值，给分类率误差大的基本分类器小的权值。

Adaboost

input:训练数据集 $\lbrace (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace$ ，其中 $x\in\mathcal{X}\subseteq R^n~,~y_i \in \mathcal{Y}~,~\text{弱学习算法}$
output:最终的分类器 $G (x)$

初始化训练数据的权值分布
$D_1 = (w_{11},...,w_{1i},...,w_{1N})~,~w_{1i} = \frac{1}{N}~,~i=1,2,..,N$
对 $m = 1, 2, . . ., M$
1. 使用具有权重分布 $D_m$ 的训练集学习，得到基本分类器： $G_m(x):\mathcal{X} \longrightarrow \lbrace-1 +1 \rbrace$
2. 计算 $G_m(x)$ 在训练集上的分类误差率: $e_m = \sum_{i=1}^N P(G_m(x_i)\neq y_i) =\sum_{i=1}^N w_{mi} I(G_m(x_i)\neq y_i)$
3. 计算 $G_m(x)$ 的系数 $\alpha_m = \frac{1}{2} \log\frac{1-e_m}{e_m}$
4. 更新训练数据集的权值分布 $D_{m+1} = (w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N})~,~w_{m+1,i} = \frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$
构建基本分类器的线形组合
1. $\sum_{m=1}^M\alpha_mG_m(x)$
2. $G (x) = s i g n (f (x))$

Adaboost算法训练误差分析

Adaboost算法最基本的性质是他在学习过程中能够不断的减少训练误差，即在训练数据集上面的分类误差率，有以下两个定理：

Adaboost算法的训练误差界
二分类问题的Adaboost算法的训练误差界

Adaboost算法的解释

Adaboost算法的一个解释是该算法实际上是前向分步算法的一个实现，在这个方法里，模型是加法模型，损失函数是指数函数，算法是向前分步算法。

前向分步算法

加法模型：
$\sum_{m=1}^M\beta_mb(x;\gamma_m)$
基函数： $b(x;\gamma_m)$ 基函数的参数： $\gamma_m$ 基函数的系数： $\beta_m$
在给定训练数据集以及损失函数 $L (y, f (x))$ 的条件下，学习加法模型可以转化成为经验风险极小化即损失函数极小化问题：
$\min_{\gamma_m,\beta_m}\sum_{i=1}^NL(y_i,\sum_{m=1}^M)\beta_mb(x;\gamma_m))$
一个想法是，每一步就优化学习一个基函数及其系数，逐步逼近优化目标函数形式,即优化：
$\min_{\beta,\gamma}\sum_{i=1}^NL(y_i,\beta b(x_i;\gamma))$
前向分步算法:
input: $\lbrace (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbrace$ 损失函数： $L (y, f (x))$ ,基函数集： $\lbrace b(x;\gamma) \rbrace$
output:加法模型 $f (x)$

初始化 $f_0(x)= 0$
对m=1,2,…,M
1. 极小化损失函数 $(\beta_m,\gamma_m) = arg\min_{\beta,\gamma}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$ 得到 $(\beta_m,\gamma_m)$
2. 更新 $f_m(x) = f_{m-1}(x)+\beta_mb(x;\gamma_m)$
得到加法模型
$f_M(x) = \sum_{m=1}^M\beta_mb(x;\gamma_m)$
Adaboost算法是向前分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。

提升树

提升树是以分类树或者回归树为基本分类器的提升方法。

提升树模型

提升算法实际采用加法模型与前向分布算法，以决策树为基函数的提升方法称之为提升树（boosting tree）
$f_M(x) = \sum_{m=1}^M T(x;\Theta_m)$
其中， $T(x;\Theta_m)$ 表示决策树， $\Theta_m$ 为决策树的参数，M为树的个数。

提升树算法

回归问题的提升树算法：
input：训练数据集 $T = {(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$
output：提升树算法： $f_M(x)$

初始化 $f_0(x) = 0$
对m=1,2,3,…,M
1. 计算残差
2. 拟合残差学习一个回归树
3. 更新 $f_M(x)$
得到回归问题提升树模型
$f_M(x) = \sum_{m=1}^M T(x;\Theta_m)$

梯度提升

对一般的损失函数而言，优化并不是很简单，就提出了梯度提升算法，其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树。
$-[\frac{\partial L(y,f(x_i))}{\partial(f(x_i))}] _ {f(x) = f_{m-1}(x)}$

_BOTAK_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
提升方法

提升方法提升方法是指将弱学习算法提升为强学习算法的统计学习算法。在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列的基本分类器（若分类器），并将这些基本分类器线形组合，构成一个强分类器。提升方法Adaboost算法Adaboost算法的特点是通过迭代每次学习一个基本的分类器，每一次的迭代中，提高那些被前一轮分类器错误分类的数据的权值，而降低那些被正确分类数据的权值。最后，Ada...
复制链接

扫一扫

专栏目录