统计学习笔记-提升方法

最新推荐文章于 2020-05-29 22:47:11 发布

快剑青衣

最新推荐文章于 2020-05-29 22:47:11 发布

阅读量311

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/u011070767/article/details/80568159

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

简介：

在分类问题中，他通过改变训练数据的权重，学习多个分类器，并将这些分类器线性组合，提高分类的性能。

提升方法AdaBoost算法

Adaboost提升方法的基本思路：

1、提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。

这样一来，那些没有得到正确分类的数据，由于其权值加大而受到后一轮的弱分类器更大的关注。

2、AdaBoost采取加权多数表决的方法，加大分类误差率小的弱分类器的权值，使其在表决中起较大作用，减小分类误差率大的弱分类器，使其在表决中起较小作用。

Adaboost算法：

输入：训练数据集T，弱学习算法；

输出：最终分类器G(x)。

1、初始化训练数据的权值分布，让各个训练数据的初始化权值相等：

2、对m=1,2,···,M

a、使用具有权值分布 D m的训练数据集学习，得到基本分类器：

b、计算G m在训练数据集上的分类误差率（从下面公式可知分类器G m的误差率是误分类样本的权值之和，误样本的权值会影响分类器的误差率，所以会让下一个分类器更重视权值大的样本）

c、计算 G m的系数，它表示 G m在最终分类器中的重要程度，还会影响到所有的 w m+1取值，由式子可知 e m <= 1/2时， a m>=0，并且 a m随着的 e m减小而增大

这里的对数是自然对数。

d、更新训练数据集的权值分布(所有权值的总和必须为1)

Zm 是规范化因子：

3、构建基本分类器的线性组合

得到最终分类器（f(x)的符号决定实例x的类别，f(x)的绝对值表示分类的确信度.）

AdaBoost算法的训练误差分析

AdaBoost能在学习过程中不断减少训练误差，AdaBoost最终分类器的训练误差界为

证明如下：

（等待补充）

这一定理说明，可以在每一轮选取适当的 G m使得 Z m最小（故一般都是选误差率最小的 G m），从而使得训练误差下降最快.

二类分类问题AdaBoost的训练误差界：

这里， γm = 1/2 - em

证明如下：

(有时间在补充)

从二类分类训练误差界，引发的推论：如果存在 γ >0，对所有 γ m >= γ，则

推论表明在这一条件下，AdaBoost的训练误差是以指数速率下降的，但是AdaBoost算法与一些早期的提升方法不同，它不需要知道下界 γ，即AdaBoost具有适应性，它能适应弱分类器各自的训练误差率，这也是它的名称Ada（Adaptive 适应的提升）的由来。

AdaBoost算法的另一种解释

AdaBoost算法还有另一种解释，即认为AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。

前向分步算法：

加法模型：

其中，b(x; γ m)为基函数， γ m为基函数的参数， β m 为为基函数的系数

在给定训练数据及损失函数L(y,f(x))的条件下，学习加法模型f(x)成为经验风险极小化即损失函数极小化问题:

此式子里面变量太多，通常来说这是一个很复杂的优化问题，但是我们可以换种优化思路，让一次优化组合式子的所有参数变成每次优化一个式子参数，然后优化多个式子；这就是前向分步算法：如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，那么就可以简化优化的复杂度，具体地，每步只需要优化如下损失函数：