AdaBoost 算法：回归问题

最新推荐文章于 2024-05-05 19:16:43 发布

予亭

最新推荐文章于 2024-05-05 19:16:43 发布

阅读量1.3w

点赞数 9

分类专栏：学术文章标签： AdaBoost 回归问题

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/randompeople/article/details/95042487

版权

学术专栏收录该内容

44 篇文章 3 订阅

订阅专栏

前言

在《统计学习方法》这本书中介绍了基于分类问题的AdaBoost方法，其中更新样本权重采用的是 $y_i != G(x_i)$ ，其实当时就思考这样一个问题：如果用于回归任务，那么这个更新样本权重该如何计算？本文基于此问题展开讨论。对此问题有疑问的请参考博客提升方法（boosting）和AdaBoost详解
。

AdaBoost 回归算法

我们都知道回归预测得到的结果是数值，比如房子价格，每一个房产样本都有一个房产价格，这个价格是一个数值，不同的房产价格可能是不一样的，且价格繁多，不像分类问题，类别较固定，所以使用AdaBoost算法做回归问题时不能单单的用分类问题的AdaBoost 算法，其重点在于如何更新样本权重及分类器权重，参考资料有如下一种思路：

首先聊聊误差率问题，对于第m个若学习器，计算它在训练集上的最大误差：
$E_m=max|y_i - G_m(x_i)|$
为什么不取全体样本误差总值？
计算每个样本的相对误差：
$e_{mi}=\frac{|y_i - G_m(x_I)|}{E_m}$
也可以用平方误差：
$e_{mi}=\frac{|y_i - G_m(x_I)|^2}{E_m^2}$
得到最终得到第m个弱分类器的误差率：
$e_m = \sum_{i=1}^{N}w_{mi}e_{mi}$
由此得到弱学习器权重系数：
$a_m = \frac{e_m}{1-e_m}$

这里有一个问题， $e_{m}$ 一定小于1嘛。

样本权重更新公式为：
$w_{m+1,i}=\frac{w_{mi}}{Z_m}a_{m}^{1-e_{mi}}$
其中 $Z_m$ 是一个规范化因子：
$Z_m=\sum_{i=1}^{N}w_{mi}a_{m}^{1-e_{mi}}$
这有点像样本误差除以所有误差，计算当个样本误差占比，这个用来作为样本权重。
最后是结合策略，和分类问题稍有不同，采用的是对加权的弱学习器取中位数的方法，最终的强回归器为：
$\begin{aligned} f(x)&=\sum_{m=1}^{M}(ln(\frac{1}{a_m}))g(x) \\ &= \bigg[\sum_{m=1}^{M}(ln(\frac{1}{a_m}))\bigg]g(x) \end{aligned}$
其中， $g (x)$ 是所有 $a_mG_m(x)，m=1,2,...,M$ 的中位数，这样分析，那么在上述公式中对于 $m$ 的不同取值 $g (x)$ 都是相同的分类器，只不多是前面的权重不同而已。感觉取中位数的依据是什么呢？取中位数的时候分类器是不是先排序？难道是按照训练分类器的先后顺序？其他分类器的权重相加也有点看不懂依据？继续参考其他博客
当然有些博客采用分类问题的加权平均法：
$f(x)=\sum_{m=1}^{M}(ln\frac{1}{a_m})G_m(x)$
加权平均法比较好理解，这里你也可以定义自己的组合策略

参考博客

adaboost做回归预测的时候，是怎么调整样本权重的？
机器学习校招笔记3:集成学习之Adaboost

予亭

关注

9
点赞
踩
50

收藏

觉得还不错? 一键收藏
22
评论
AdaBoost 算法：回归问题

前言在《统计学习方法》这本书中介绍了基于分类问题的AdaBoost方法，其中更新样本权重采用的是yi!=G(xi)y_i != G(x_i)yi!=G(xi)，其实当时就思考这样一个问题：如果用于回归任务，那么这个更新样本权重该如何计算？本文基于此问题展开讨论。对此问题有疑问的请参考博客提升方法（boosting）和AdaBoost详解。AdaBoost 回归算法我们都知道回归预测得到...
复制链接

扫一扫