集成学习

@yuqing_wang

于 2020-12-20 11:58:03 发布

阅读量513

点赞数

分类专栏：统计学习（李航）

本文链接：https://blog.csdn.net/weixin_43199124/article/details/111409391

版权

统计学习（李航）专栏收录该内容

12 篇文章 0 订阅

订阅专栏

简介

多个“弱学习器”，组合产生了最终结果，往往具备比较好的泛化特征

简单分析

考虑二分类问题 $\in \{-1,1\}$ ，假设基分类器的错误率为 $\epsilon$
$p(h_i(x)\neq g(x))=\epsilon$
利用投票法集成
$H(x)=sign(\sum_{t=1}^Th_t(x))$
错误率：
$P(H(x)\neq g(x))=\sum_{k=0}^{[T/2]}\tbinom{T}{k}（1-\epsilon)^k\epsilon^{T-k}\leq exp\{-0.5T(1-2\epsilon)^2\}$
(根据Hoeffding不等式)
comment:

$\epsilon<0.5$
T $\uparrow$ ,exp $\downarrow$
与 $h_t(x)$ 独立性有关
要求：好而不同

提升方法（Boosting）

Adaboost:提高那些前一轮被弱分类器分错的样本的权值，降低正确的（loss function weight）

Adaboost 算法

在这里插入图片描述

Adaboost 算法解读

前向分布算法

可加模型
$f(x)=\sum_{m=1}^M\beta_mb(x,\gamma_m)$

优化损失函数
$min_{(\beta_m,\gamma_m),0\leq m \leq M}\sum_iL(y_i,\sum_{m=1}^M\beta_mb(x_i,\gamma_m))$

算法

输入：数据集，损失函数，基函数集
输出：加法模型 $f (x)$
step:

初始化 $f_0(x)=0$
对 $m=1,\cdots,M$
(a)极小化损失函数
$(\beta_m,\gamma_m)=argmin\sum_i^nL(y_i,f_{m-1}(x_i)\beta_mb(x_i,\gamma_m))$
(b)更新
$f_m(x)=f_{m-1}(x)+\beta_mb(x,\gamma_m)$
得到加法模型
$f(x)=\sum_{m=1}^M\beta_mb(x,\gamma_m)$

comment：
将同时求解 $m=1,\cdots,M$ 的 $(\gamma_m,\beta_m)$ ，转变为逐个求解的问题

前向分布与Adaboost

定理： adaboost是前向分布算法的特例，其中模型是基本模型组成的加法模型，损失函数是指数函数，其中指数函数的形式是
$L(y,f(x))=exp\{-yf(x)\}$

proof:
需要证明 $\alpha_m$ 的计算公式和权重更新公式
假设 $m - 1$ 轮迭代已经得到了 $f_{m-1}(x)$
第m轮迭代需要得到 $\alpha_m,G_m(x),f_m(x)$
$(\alpha_m,G_m(x))=argmin \sum_{i}^{n} exp\{ -y_i(f_{m-1}(x)+\alpha G(x))\}=argmin \sum_{i}^{n} \bar w_{mi}exp\{ -y_i(\alpha G(x))\}$
$\bar w_{mi}$ :没有经过归一化的 $w_{mi}$
最优的 $G (x)$ 由下式得到
$G_m^*=argmin_{G}\sum_{i}^{n} \bar w_{mi} I(Y_i\neq G(x_i))$
对 $\alpha$ 求导，即可证，并可证权重更新公式

Adaboost训练误差分析

定理：Adaboost的最终分类器的训练误差边界
$\frac{1}{N}\sum_{i}I(G(x_i)\neq y_i)\leq \frac{1}{N} \sum_iexp(-y_if(x_i))=\prod_mZ_m$
$其中Z_m=\sum_i w_{mi}exp(-\alpha_my_iG_m(x_i))$
proof
第一个不等式：
$exp(-y_if(x_i))>1$ if $y_i\neq f(x_i)$
第二个等式证明
$w_{m+1,i}=\frac{w_{m,i}exp\{-\alpha_m y_i G_m(x_i)\}}{Z_m}$

$\frac{1}{N} \sum_iexp(-y_if(x_i))\\=\frac{1}{N} \sum_i \prod_{m=1} exp(-\alpha_m y_i G_m(x_i)) \\=w_{1,1} \sum_i \prod_{m=2} z_1\frac{w_{2,1}}{w_{1,1}} exp(-\alpha_m y_i G_m(x_i))\\=\prod_mZ_m$

定理：二分类问题的训练误差界
在这里插入图片描述

提升树

提升树模型

以决策树为基的提升方法称为提升树，提升树可以表示为决策树的加法模型
$f_M(x)=\sum_m T(x,\theta_m)$
对于分类问题，只需要将Adaboost中的所有集分类器设为2分类树
对于回归问题，采用平方误差
$L(y,f_{m-1}(x)+T(x,\theta_m))=\{y-f_{m-1}(x)-T(x,\theta_m)\}^2$

梯度提升算法

在这里插入图片描述

Bagging 算法

希望个体学习器尽可能的独立
解决方法：多次使用重抽样数据
步骤：

对数据进行T次bootstrp重抽样，每次采样M个样本进行训练
输出最终结果
分类问题：投票法
回归问题：求平均
注：泛化误差的包外估计（out of bag estimate）
对于每棵树在“包内”（M个训练样本）在“包外”预测，泛化误差可以用“包外”的错误率估计

随机森林（Random Forest）

算法：

for $b=1,\cdots,B$
(a)draw a bootstrap sample $z^*$ of size N from the training data
(b)grow a tree $T_b$ to the bootstrap data by random selecting $p_1$ features from $p$ variables
output the ensemble trees ${T_b\}_{b=1}^B$ ,make prediction

评估变量的重要性

方法一：(用训练数据)
对于每一棵树，变量重要性可以用该变量分裂后的评价指标（e.g.基尼指数）的下降来量化
对所有树取平均，可以作为重要性的度量
方法二：（用包外数据）
评价 $x_j$ 的重要性，对包外数据的第 $x_j$ 列进行干扰（随机变换顺序）
计算预测值的降低
所有树取平均

@yuqing_wang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
集成学习

简介多个“弱学习器”，组合产生了最终结果，往往具备比较好的泛化特征简单分析考虑二分类问题y∈{−1,1}y \in \{-1,1\}y∈{−1,1}，假设基分类器的错误率为 ϵ\epsilonϵp(hi(x)≠g(x))=ϵp(h_i(x)\neq g(x))=\epsilonp(hi(x)=g(x))=ϵ利用投票法集成H(x)=sign(∑t=1Tht(x))H(x)=sign(\sum_{t=1}^Th_t(x))H(x)=sign(t=1∑Tht(x))错误率：P(H(x)≠
复制链接

扫一扫