提升方法总结

最新推荐文章于 2022-08-17 12:33:58 发布

IT莫莫

最新推荐文章于 2022-08-17 12:33:58 发布

阅读量451

点赞数

分类专栏：机器学习机器学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gt362ll/article/details/83928421

版权

机器学习基础同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

1. Boosting

提升方法通过改变训练样本权重，学习多个分类器，并将分类器线性组合提高分类性能。Boosting需要做到两件事，一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。

2. AdaBoost

为了解决Boosting的两个要求，adaboost在每一轮提高被错分的样本的权值，降低正确分类样本的权值。在组合分类器的时候，给误分率小的分类器较大权值，误分率大的分类器较小权值。一句话概括adaboost就是用样本权值计算分类器的权值，再用分类器的权值去更新样本的权值。

AdaBoost的过程如下：

输入：训练数据集T ={(x1, y1), (x2, y2), ..., (xN, yN)}，其中xi∈X⊆Rn，yi∈Y={-1, +1}；

输出：最终分类器G(x)

1. 初始化训练数据的权值分布

$w=(w_1,w_2,w_3...w_n) \qquad w_i=\frac{1}{N}$

2. 在每一轮训练中，设当前训练到第m轮

(a) 使用带权训练数据学习，得到该轮的基本分类器 G_m(x)：X->(-1,1)

(b) 计算当前分类器的误分类率

$e_m=\sum_{i=1}^{n}w_iI(G_m(x)\neq y)$

(c) 计算当前分类器G_m的权值

$\alpha _m=\frac{1}{2}log\frac{1-e_m}{e_m}$

(d) 更新样本的权值

$w_{m+1,i}=\frac{w_{mi}}{Z_m} e^{-\alpha _my_iG_m(x_i)}$

观察上式，Z_m是 $w_{mi} e^{-\alpha _my_iG_m(x_i)}$ 的归一化因子，e是自然对数，e的指数其实就是 $\alpha _m$ 的正负项，可以验证当分类正确的时候指数是负的，当分类错误的时候指数是正的，这样就有对误分的样本增大权值，对分类正确的样本减小权值的效果。

3. 最终分类器是每轮分类器的加权线性组合

adaboost的本质

adaboost是模型为加法模型，损失函数为指数函数，学习算法为前向分步算法时的二类分类学习方法。

解释：http://breezedeus.github.io/2015/07/12/breezedeus-adaboost-exponential-loss.html

3. GBDT

梯度提升树(Gradient Boosting Decison Tree)，和adaboost一样也是迭代模型，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型。在迭代的过程中，当前的分类器目标是拟合前一轮分类器的残差。下面是一个预测年龄的例子，我们限定树只能有两层，第一轮预测了15和25(预测值是子节点样本的均值)，第二轮预测的是第一轮的残差。最后的预测结果是所有树预测的和。

GBDT过程：

1. 初始化分类器

$f_0(x)=argmin \sum_{i=1}^{m}L(y_i,c)$

2. 对迭代1,2....T轮：

(a) 样本1,2,...m，计算负梯度。注意负梯度是t-1轮模型的负梯度，我们用t-1的负梯度来生成第t轮的树

之所以是计算负梯度，和损失函数有关，GBDT常用的损失函数有均方差、绝对损失等，以均方差损失函数为例

$L(y,x)=\frac{1}{2}(y-f(x))^2$

梯度是 $-(y-f(x))$ ，负梯度正好是预测的残差，所以说GBDT拟合残差就是在拟合负梯度

(b) 利用 $(x_i,r_{ti})$ 拟合CART回归树，得到第t轮的回归树T

(c) 更新模型

$f_m(x)=f_{m-1}(x)+T$

(d) 输出模型

GBDT分类

由于GBDT使用的是cart回归树，而分类的标签是离散的标签，所以实现方法和回归不同。分类的GBDT常用损失函数有指数函数和对数损失。当用指数损失函数的时候，GBDT退化为adaboost

当用对数释然函数的时候，用预测概率和真实概率的差来拟合损失

参考

https://zhuanlan.zhihu.com/p/31639299

https://blog.csdn.net/herr_kun/article/details/81139457

https://www.jianshu.com/p/005a4e6ac775 参数设置

https://www.zhihu.com/question/63560633

https://zhuanlan.zhihu.com/p/25257856

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
提升方法总结

1. Boosting提升方法通过改变训练样本权重，学习多个分类器，并将分类器线性组合提高分类性能。Boosting需要做到两件事，一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。2. AdaBoost为了解决Boosting的两个要求，adaboost在每一轮提高被错分的样本的权值，降低正确分类样本的权值。在组合分类器的时候，给误分率小的分类器较大...
复制链接

扫一扫

专栏目录

IT莫莫 CSDN认证博客专家 CSDN认证企业博客

码龄11年

104: 原创

27万+: 周排名

119万+: 总排名

5万+: 访问

: 等级

1505: 积分

4: 粉丝

19: 获赞

6: 评论

76: 收藏

私信

关注

热门文章

分类专栏

最新评论

45. Jump Game II
CSDN-Ada助手: 非常感谢CSDN博主分享的关于“Jump Game II”的博客。我觉得这篇文章非常有价值，特别是对于那些正在学习或者准备面试算法的读者来说。建议下一篇博客可以继续深入探讨算法相关的话题，比如可以写一篇关于“贪心算法”的博客，介绍贪心算法的基本思想、应用场景以及实现方法等，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
二分类问题输出一个节点还是两个节点
gr986: 我也有这个问题
二分类问题输出一个节点还是两个节点
Xinzhi Wang: +1
二分类问题输出一个节点还是两个节点
qq_29345079: 二分类，应该设置2个输出节点，还是1个输出节点呢
机器学习 (一)：线性回归
wujianqinjian: >_ | _<

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。