提升AdaBoost与提升树(boosting tree)

JeJe_33

于 2021-04-03 13:51:58 发布

阅读量296

点赞数 1

分类专栏： ML 文章标签：机器学习 adaboost算法算法

本文链接：https://blog.csdn.net/qq_44807945/article/details/113924116

版权

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1.简介
boosting本质即通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。
提升方法即从弱学习算法出发，得到一系列弱分类器，构成一个强分类器。
大多数提升方法通过改变训练数据的概率分布，针对不同的训练数据分布调用弱学习算法学习一系列弱分析器

2.核心问题
a.如何改变训练数据的权值或概率分布
b.如何将弱分类器组合成强分类器
a.提高前一轮弱分类器错误分类样本的权值，降低正确分类样本的权值。
b.采用加权多数表决的方法，加大分类误差率小的弱分类器的权值，减少误差率大的弱分类器的权值

3.Adaboost算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2)...(x_n,y_n)\}$ , $y_i\in\{-1,1\}$ 弱学习算法
输出：最终分类器G(x)
步骤：
初始化训练数据的权值分布 $D_1$ ，对每个数据加权重
使用具有权值分布Dm的训练数据集学习，得到基本分类器
计算 $G_m(x)$ 在训练数据集上的分类误差率
$e_m=\sum^N_1{P(G(x_i)≠y_i)}=\sum{w_miI}$
计算 $G_m(x)$ 的系数
$α_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
更新训练数据集的权值分布（提高错误分布的权值，通过构造概率分布，使得错误分布的权值加大）
分布 $Z_m=\sum{w_{mi}exp(-a_my_iG_m(x_i))}$
$w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-a_my_iG_m(x_i)$
构建基本分类器的线性组合(将弱分类器进行组合，使得分类效果越好的权重越大）
$f(x)=\sum^M_1{α_mG_m(x)}$

4.AdaBoost算法的训练误差分析
$\frac{1}{N}\sum^N_1I(G(x_i)≠y_i)\le\frac{1}{N}\sum{exp(-y_if(x_i))}=\prod_m{Z_m}$
当为二分类问题时
$\prod_m{Z_m}=\prod_m{(1-4(\frac{1}{2}-e_m)^2)^\frac{1}{2}}\le{exp(-2\sum{(\frac{1}{2}-e_m})^2)}$
如果存在γ使得所有 $\frac{1}{2}-e_m >=\gamma$ ,则上界以指数速率下降，即训练误差以指数速率下降

5.新的解释
将AdaBoost模型认为是加法模型，损失函数为指数函数，学习算法为前向分步算法的二分类学习方法
5.1前向分步算法

输入：训练数据集T,损失函数L 以及基函数的集合{b(x;γ)}
输出：加法模型f(x)
初始化 $f_0=0$
对m=1，2，…，M
极小化损失函数
$(\beta_m,\gamma_m)=arg min_{\beta,\gamma}\sum{L(y_i,f_{m-1}(x_i)+\beta{b}(x_i;\gamma))}$ 得到参数
更新 $f_m(x)=f_{m-1}(x)+\beta{b(x;\gamma_m)}$
重复，直到得到加法模型