集成学习之Adaboost 算法及相关参数公式推导

最新推荐文章于 2024-07-18 15:11:02 发布

yoyooyooo

最新推荐文章于 2024-07-18 15:11:02 发布

阅读量484

点赞数

分类专栏：算法整理文章标签：机器学习人工智能深度学习集成学习 Adaboost

本文链接：https://blog.csdn.net/YY_Tina/article/details/108805784

版权

本文介绍了集成学习中的Adaboost算法，详细阐述了Adaboost解决分类问题的过程，包括损失函数、权重系数和样本权重的更新，并给出了分类问题的公式推导。此外，还提及Adaboost在回归问题的应用以及可能存在的问题。

摘要由CSDN通过智能技术生成

什么是集成学习？
集成学习就是将多个学习器通过各类方法集成起来，从而获得更好的学习效果的一种学习方式。

一般来说，集成学习分为两种

现在一般都使用同质集成的方式，常用的方法又可以分为两类

这里主要讲Adaboost，所以先简单说一下Boosting

在前文中提过，boosting属于序列化方法，及各个学习器之间存在强依赖关系，需要串行生成。具体的生成流程可以看下图
Boosting方法图示

那么从图中可以看出，一个完整的Boosting学习过程需要解决4个问题

接下来将详细讲述Adaboost针对以上四个问题的解决方法。

符号	详细	表示
$T$	$T = {(x_1, y_1), (x_2, y_2), ..., (x_m, y_m)}$	训练集
$m$	-	样本数量
$D (k)$	$D(k)=(w_{k_1}, w_{k_2}, ..., w_{k_m})$	第 $k$ 个学习器对应的样本权重
$w_{k_i}$	$w_{1_i} = \frac{1}{m}$	第 $i$ 个样本在第 $k$ 个学习器中对应的权重，初始化时大家权重相同
$l o s s (k)$	-	第 $k$ 个学习器的加权误差
$\alpha_k$	-	第 $k$ 个学习器的权重系数
$Z_k$	-	规范化因子
$G_k(x)$	-	第 $k$ 个普通学习器
$K$	-	一共有 $K$ 个普通学习器
$f (x)$	-	总学习器

这里以二分类为例，那我们需要的输出就是 ${-1, 1\}$
先把最后的参数结果列出来

对于第 $k$ 个分类器 $G_k(x)$ 在训练集 $T$ 上的参数

加权误差 $l o s s (k)$
$\begin {aligned} loss(k) &= P(G_k(x_i)≠y_i) \\ &=\sum_{i=1}^m{w_{k, i}I(G_k(x_i)≠y_i)} \end {aligned}$
其中 $I$ 是单位矩阵
权重系数 $\alpha_k$
$\alpha_k = \frac{1}{2}\log{\frac{1-loss(k)}{loss(k)}}$
$l o s s (k)$ 越大，该分类器 $G_k(x)$ 的权重系数越小
样本权重 $w_{k+1, i}$
$\begin {aligned} w_{k+1, i} &= \frac{w_{k, i}}{Z_k}\exp(-\alpha_ky_iG_k(x_i)) \\ Z_k&=\sum_{i=1}^m{w_{k, i}\exp(-\alpha_ky_iG_k(x_i))} \end {aligned}$