《统计学习方法》笔记--提升方法

红浅

于 2022-01-19 10:59:44 发布

阅读量926

点赞数

分类专栏：机器学习文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/weixin_40029703/article/details/122144007

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

基本思路

提升方法是通过改变训练样本的权重，得到一系列弱分类器（基本分类器），然后通过组合这些弱分类器，构成一个强分类器。

AdaBoost在每一轮如何改变训练数据的权值或概率分布？
提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。
AdaBoost如何将弱分类器组合成一个强分类器？
采取加权多数表决的方法，具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起到较小的作用。

AdaBoost算法

假设给定一个二分类的训练数据集
$T={(x_1,y_1), (x_2, y_2),...,(x_N, y_N)}$
其中，每个样本点由实例与标记组成，实例 $x_i \in X \subseteq R^n$ , 标记 $y_i\in Y = \{-1, +1\}$ . $X$ 是实例空间， $Y$ 是标记空间。
AdaBoost算法
输入：训练数据集 $T={(x_1,y_1), (x_2, y_2),...,(x_N, y_N)}$ ，其中 $x_i \in X \subseteq R^n, y_i\in Y = \{-1, +1\}$ ;弱学习算法；
输出：最终分类器 $G (x)$
(1). 初始化训练数据的权值分布
$D_1=(w_{11},...,w_{1i},...,w_{1N}), w_{1i} = \frac{1}{N}, i=1, 2,...,N$
(2). 对 $m = 1, 2, . . ., M .$
a. 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器
$G_m(x): \chi \rightarrow \{-1, +1\}$
b. 计算 $G_m(x)$ 在训练数据集上的分类误差率
$e_m = P(G_m(x_i) \not=y_i) = \sum^N_{i=1} w_{mi}I(G_m(x_i) \not= y_i)$
c. 计算 $G_m(x)$ 的系数
$\alpha_{m} = \frac{1}{2}log\frac{1-e_m}{e_m}$
对数为自然对数
d.更新训练数据集的权值分布
$D_{m+1} = (w_{m+1,1}, ...,w_{m+1, i},...,w_{m+1, N})$
$w_{m+1, i} = \frac{w_{mi}}{Z_m}exp(-\alpha_m y_i G_m(x_i))$
这里， $Z_m$ 是规范化因子
$Z_m = \sum_{i=1}^N w_{mi}exp(-\alpha_m y_i G_m(x_i))$
它使得 $D_{m+1}称为一个概率分布$
（3）构建基本分类器的线性组合
$f(x)=\sum_{m=1}^M\alpha_m G_m(x)$
得到最终分类器
$G(x)=sign(f(x))=sign\Big(\sum_{m=1}^M\alpha_mG_m(x)\Big)$

提升树

以决策树为基函数的提升方法称为提升树。提升树采用前向分步算法。首先确定初始提升树 $f_0(x)=0$ ,第 $m$ 步的模型是
$f_m(x)=f_{m-1}(x)+T(x;\theta_m)$
其中, $f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一棵决策树的参数:
$\theta_m = \underset{\theta_m}{argmin}\sum^{N}_{i=1}L(y_i, f_{m-1}(x_i)+T(x_i;\theta_m))$
针对不同的提升树学习算法，其主要区别在于使用的损失函数不同。用平方误差损失函数的回归问题，用指数损失函数的分类问题，用一般损失函数的决策问题。

回归问题的提升树算法

已知一个训练数据集
$T={(x_1, y_1), (x_2, y_2), ..., (2x_N, y_N)}, x_{i}\in \chi \subseteq R^n$
$\chi$ 为输入空间， $y_i \in Y \subseteq R$ , $Y$ 为输出空间。如果将输入空间 $\chi$ 划分为 $J$ 个互不相交的区域 $R_1, R_2, ..., R_J$ ，并且在每个区域上确定输出的常量 $c_j$ , 那么树可表示为
$\theta)=\sum^J_{j=1} c_jI(x\in R_j)$
其中参数 $\theta={(R_1, c_1), (R_2, c_2), ..., (R_j, c_j)}$ , 表示树的区域划分和各区域上的常数， $J$ 是回归树的复杂度即叶结点个数。
回归问题提升树使用以下前向分步算法：
$\begin{aligned} & f_0(x) = 0 \\ & f_m(x)=f_{m-1}(x)+T(x;\theta_m) \\ & f_M = \sum^M_{m=1}T(x, \theta_m) \end{aligned}$
在前向分布算法的第 $m$ 步，给定当前模型 $f_{m-1}(x)$ ，需求解第 $m$ 棵树的参数：
$\theta_m = \underset{\theta_m}{argmin}\sum^{N}_{i=1}L(y_i, f_{m-1}(x_i)+T(x_i;\theta_m))$
当采用平方误差损失函数时，
$L(y, f(x)) = (y-f(x))^2$
其损失变为
$f_{m-1}(x)+T(x; \theta_m)) =[y-f_{m-1}(x)-T(x; \theta_m)]^2 =[ \gamma - T(x; \theta_m)]^2$
这里
$\gamma = y - f_{m-1}(x)$
为当前模型拟合数据的残差，对回归问题放入提升树算法来说，只需简单地拟合当前模型的残差。

梯度提升

当损失函数时平方损失和指数函数时，每一步优化是很简单的。但对一般损失函数而言，优化并不那么容易。此时可以应用梯度提升算法，它是利用最速下降法的近似方法，关键是利用损失函数的负梯度在当前模型的值
$-\Big[\frac{\partial L(y, f(x_i))}{\partial f(x_i)}\Big]_{f(x)=f_{m-1}(x)}$
即此时的梯度值作为拟合的残差。

参考：

统计学习方法

红浅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》笔记--提升方法

基本思路提升方法是通过改变训练样本的权重，得到一系列弱分类器（基本分类器），然后通过组合这些弱分类器，构成一个强分类器。AdaBoost在每一轮如何改变训练数据的权值或概率分布？提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。AdaBoost如何将弱分类器组合成一个强分类器？采取加权多数表决的方法，具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起到较小的作用。AdaBoost算法假设给定
复制链接

扫一扫