集成学习 Task06 Boosting

最新推荐文章于 2024-07-24 14:05:30 发布

AnnoraJiao

最新推荐文章于 2024-07-24 14:05:30 发布

阅读量152

点赞数

分类专栏：集成学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42120499/article/details/119063885

版权

集成学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

前言

请添加图片描述

一、Boosting的基本思路

“强可学习"和"弱可学习”

在概率近似正确PAC学习的框架下：
弱学习：识别错误率小于1/2（即准确率仅比随机猜测略高的学习算法）
强学习：识别准确率很高并能在多项式时间内完成的学习算法

非常有趣的是，在PAC 学习的框架下，强可学习和弱可学习是等价的，也就是说一个概念是强可学习的充分必要条件是这个概念是弱可学习的。

弱可学习算法提升至强可学习算法

二、Adaboost算法

1.Adaboost的基本原理

对于Boosting方法来说，有两个问题需要给出答案：第一个是每一轮学习应该如何改变数据的概率分布，第二个是如何将各个弱分类器组合起来。

对于Adaboost来说，解决上述的两个问题的方式是：1. 提高那些被前一轮分类器错误分类的样本的权重，而降低那些被正确分类的样本的权重。这样一来，那些在上一轮分类器中没有得到正确分类的样本，由于其权重的增大而在后一轮的训练中“备受关注”。
2. 各个弱分类器的组合是通过采取加权多数表决的方式，具体来说，加大分类错误率低的弱分类器的权重，因为这些分类器能更好地完成分类任务，而减小分类错误率较大的弱分类器的权重，使其在表决中起较小的作用。

在这里插入图片描述

三、前向分步算法

1. 加法模型

在Adaboost模型中，我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和，即： $f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

2. 前向分步算法

给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ， $y_{i} \in \mathcal{Y}=\{+1,-1\}$ 。损失函数 $L (y, f (x))$ ，基函数集合 $\{b(x ; \gamma)\}$ ，我们需要输出加法模型 $f (x)$ 。

初始化： $f_{0}(x)=0$
对m = 1,2,…,M:
- (a) 极小化损失函数：
  $\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$
  得到参数 $\beta_{m}$ 与 $\gamma_{m}$
- (b) 更新：
  $f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$
得到加法模型：
$f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

这样，前向分步算法将同时求解从m=1到M的所有参数 $\beta_{m}$ ， $\gamma_{m}$ 的优化问题简化为逐次求解各个 $\beta_{m}$ ， $\gamma_{m}$ 的问题。

Adaboost算法是前向分步算法的特例，Adaboost算法是由基本分类器组成的加法模型，损失函数为指数损失函数。

四、梯度提升决策树(GBDT)

使用加法模型+前向分步算法的框架实现回归问题。

先学到这里，未完待续

AnnoraJiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
集成学习 Task06 Boosting

目录前言一、Boosting的基本思路二、使用步骤1.引入库2.读入数据总结前言提示：以下是本篇文章正文内容，下面案例可供参考一、Boosting的基本思路###“强可学习"和"弱可学习”示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn
复制链接

扫一扫