电信保温杯笔记——《统计学习方法（第二版）——李航》第8章提升方法

电信保温杯

已于 2022-08-11 23:49:26 修改

阅读量1k

点赞数

分类专栏：机器学习文章标签： leetcode 算法深度优先

于 2022-03-03 15:43:59 首次发布

本文链接：https://blog.csdn.net/sinat_39448069/article/details/123192565

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文详细解读了《统计学习方法》中提升方法的核心原理，包括AdaBoost算法的运作机制、误差分析和提升树（Boosting Tree）的应用。通过实例讲解，深入探讨了如何利用弱分类器构建强大分类器的过程。涉及的知识点有加权多数表决、概率近似正确和前向分步算法等。

摘要由CSDN通过智能技术生成

论文

Boosting算法：《A Short Introduction to Boosting》
AdaBoost算法：《A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting》
提升树算法：《Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)》

介绍

电信保温杯笔记——《统计学习方法（第二版）——李航》
本文是对原书的精读，会有大量原书的截图，同时对书上不详尽的地方进行细致解读与改写。

提升（boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重,学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

在这里插入图片描述

下文首先介绍提升方法的思路和代表性的提升算法 AdaBoost；然后分析AdaBoost的误差；并且从另一个角度解释AdaBoost算法；最后叙述提升方法更具体的实例——提升树（boosting tree）。

提升方法的基本思路

在这里插入图片描述
为了方便理解下文，这里需要介绍一下对于线性分类器来说，数据集线性可分和线性不可分这2个概念。

定义2.2：

对于线性分类器来说，分类准确率接近90%应该算的上是接近线性可分的，准确率70+%的应该算的上是完全线性不可分的，笼统地理解为线性不可分就行。

概率近似正确（probably approximately correct，PAC）这个概念，在使用线性分类器分类任务中，应该说的是接近线性可分的，分类准确率接近90%，也可简单地理解为“强可学习”，而“弱可学习”可简单地理解为线性不可分，准确率70+%。

有了这些概念再去看原文：
在这里插入图片描述

在这里插入图片描述

提升方法的代表：AdaBoost

关于第1个问题，AdaBoost的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注。于是，分类问题被一系列的弱分类器“分而治之”。至于第2个问题,即弱分类器的组合，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

AdaBoost的巧妙之处就在于它将这些想法自然且有效地实现在一种算法里。

在这里插入图片描述

式子（8.2）有点像电信保温杯笔记——《统计学习方法（第二版）——李航》第6章逻辑斯谛回归与最大熵模型的逻辑斯谛回归模型中的对数几率：
在这里插入图片描述

分类误差越小，系数 $\alpha_m$ 越大。
在这里插入图片描述

令 $Z_m,i = w_{mi} exp(-\alpha_m y_i G_m(x_i))$ ，则式子（8.4）和（8.5）变成
$w_{m+1,i} = \frac{Z_{m,i}}{Z_m} \\ Z_m = \sum\limits_{i = 1}^N Z_{m,i}$
可以认为分子 $Z_{m,i}$ 是样本的新权重的得分分值，分母 $Z_m$ 是归一化因子。

对于第 $m$ 个分类器来说，第 $i$ 个样本分类正确， $y_i G_m(x_i)$ 为1， $0<exp(-\alpha_m y_i G_m(x_i))<1$ ，分值 $Z_{m,i}$ 下降，在训练集的第 $m + 1$ 个分布上的权重 $w_{m+1,i}$ 减小；
如果分类错误， $y_i G_m(x_i)$ 为 $- 1$ ， $exp(-\alpha_m y_i G_m(x_i))>1$ ，分值 $Z_{m,i}$ 上升，在训练集的第 $m + 1$ 个分布上的权重 $w_{m+1,i}$ 增大。
在这里插入图片描述

步骤

在这里插入图片描述

例子

在这里插入图片描述

误差分析

在这里插入图片描述

$\begin{aligned} \frac{1}{N} \sum\limits_{i=1}^N \exp (-y_if(x_i)) &= \frac{1}{N} \sum\limits_{i=1}^N \exp \left(- \sum\limits_{m=1}^M \alpha_m y_i G_m(x_i) \right) \\ &= \sum\limits_{i=1}^N \frac{1}{N} \exp \left(- \sum\limits_{m=1}^M \alpha_m y_i G_m(x_i) \right) \\ &= \sum\limits_{i=1}^N w_{1i} \exp \left(- \sum\limits_{m=1}^M \alpha_m y_i G_m(x_i) \right) \\ &= \sum\limits_{i=1}^N w_{1i} \prod\limits_{m = 1}^M \exp (- \alpha_m y_i G_m(x_i) ) \\ &= \sum\limits_{i=1}^N w_{1i} \exp (- \alpha_1 y_i G_1(x_i) ) \prod\limits_{m = 2}^M \exp (- \alpha_m y_i G_m(x_i) ) \\ &= \sum\limits_{i=1}^N Z_1 w_{2i} \prod\limits_{m = 2}^M \exp (- \alpha_m y_i G_m(x_i) ) \\ &= Z_1 \sum\limits_{i=1}^N w_{2i} \prod\limits_{m = 2}^M \exp (- \alpha_m y_i G_m(x_i) ) \\ &= Z_1Z_2 \sum\limits_{i=1}^N w_{3i} \prod\limits_{m = 3}^M \exp (- \alpha_m y_i G_m(x_i) ) \\ &= \cdots \\ &= Z_1 Z_2 \cdots Z_{M-1} \sum\limits_{i=1}^N w_{Mi} \exp (- \alpha_M y_i G_M(x_i) ) \\ &= \prod\limits_{m = 1}^M Z_m \end{aligned}$
在这里插入图片描述
$\begin{aligned} Z_m & = \sum\limits_{i=1}^N w_{mi} \exp (- \alpha_m y_i G_m(x_i) ) \\ &= \sum\limits_{y_i = G_m(x_i)} w_{mi} e^{- \alpha_m} + \sum\limits_{y_i \neq G_m(x_i)} w_{mi} e^{\alpha_m} \\ &= e ^{- \alpha_m} \sum\limits_{y_i = G_m(x_i)} w_{mi} + e ^{\alpha_m}\sum\limits_{y_i \neq G_m(x_i)} w_{mi} \\ &= e ^{- \alpha_m} (1 - e_m) + e^{\alpha_m} e_m \\ & \ge2\sqrt{(1-e_m)e_m} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(8.11) \end{aligned}$
当且仅当 $^{- \alpha_m} (1 - e_m) = e^{\alpha_m} e_m$ 时，
$^{- \alpha_m} (1 - e_m) + e^{\alpha_m} e_m = 2\sqrt{(1-e_m)e_m}$ 成立。

根据公式（8.2）
$\begin{aligned} \alpha_m & = \frac{1}{2} \log \frac{1-e_m}{e_m} \\ 2 \alpha_m & = \log \frac{1-e_m}{e_m} \\ e^{2 \alpha_m} &= \frac{1-e_m}{e_m} \\ e^{ \alpha_m} e_m &= e^{- \alpha_m} (1-e_m) \\ \end{aligned}$
因此
$\begin{aligned} Z_m &= 2\sqrt{(1-e_m)e_m} \\ &= \sqrt{1-4\gamma_m^2} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(8.11) \end{aligned}$
在这里插入图片描述

AdaBoost的另一个解释

这一部分不看也没关系。
在这里插入图片描述

前向分步算法

在这里插入图片描述

前向分步算法与AdaBoost的关系

在这里插入图片描述

$\begin{aligned} \sum\limits_{i=1}^N \bar{w}_{mi} \exp [-y_i \alpha G(x_i)] & = \sum\limits_{y_i=G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{\alpha} \\ & = \sum\limits_{y_i=G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} + ( \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} - \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} )+ \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{\alpha} \\ & = ( \sum\limits_{y_i=G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} ) - \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} e^{\alpha} \\ & = \sum\limits_{i=1}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{y_i \neq G_m(x_i)}^N \bar{w}_{mi} (e^{\alpha} - e^{-\alpha}) \\ & = \sum\limits_{i=1}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{i = 1}^N \bar{w}_{mi} (e^{\alpha} - e^{-\alpha}) I(y_i \neq G(x_i)) \quad\quad\quad\quad\quad\quad\quad\quad(8.22) \end{aligned}$
在这里插入图片描述

$\begin{aligned} \frac{ \partial \left( \sum\limits_{i=1}^N \bar{w}_{mi} \exp [-y_i \alpha G(x_i)] \right)}{ \partial \alpha} & = \frac{ \partial \left( \sum\limits_{i=1}^N \bar{w}_{mi} e^{-\alpha} + \sum\limits_{i = 1}^N \bar{w}_{mi} (e^{\alpha} - e^{-\alpha}) I(y_i \neq G(x_i)) \right)}{ \partial \alpha} \\ &= \alpha e^{-\alpha} \left( -\sum\limits_{i=1}^N \bar{w}_{mi} + (e^{2\alpha} + 1) \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) \right) \\ &= 0 \end{aligned}$
于是
$\begin{aligned} & -\sum\limits_{i=1}^N \bar{w}_{mi} + (e^{2\alpha} + 1) \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) = 0 \\ & e^{2\alpha} \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) = \sum\limits_{i=1}^N \bar{w}_{mi} - \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) \\ & e^{2\alpha} = \frac{ \sum\limits_{i=1}^N \bar{w}_{mi} - \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) }{ \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) } \\ & \alpha = \frac{1}{2} \log \frac{ \sum\limits_{i=1}^N \bar{w}_{mi} - \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) }{ \sum\limits_{i = 1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) } \\ & \alpha = \frac{1}{2} \log \frac{ 1 - e_m }{ e_m } \end{aligned}$
在这里插入图片描述