Aggregation总结：Blending和Bootstrap

最新推荐文章于 2022-02-10 14:10:45 发布

Joe-Han

最新推荐文章于 2022-02-10 14:10:45 发布

阅读量3.7k

点赞数 8

分类专栏：机器学习文章标签：机器学习 blending bagging bootstrap

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010089444/article/details/52992745

版权

机器学习专栏收录该内容

12 篇文章 5 订阅

订阅专栏

1. Aggregation

首先举一个买房的例子，假如你有10个朋友给出了买房的意见，你如何参考这10个人的意见做出决定呢？

第一种办法是让大家投票，每人一票，最后选择得票数最多的那个选项
第二种办法也是投票，与第一种不同的是每个人手里的票数不一样，懂行的人可能会分配更多的票数
第三种办法是根据具体条件进行判断：这10个人中，有的人可能注重房源的地理位置，有的人可能更注重交通状况。根据不同的条件参考不同人的意见。

Aggregation的目的就是要融合多个hypothesis，从而达到更好的预测效果。
以上三种投票方式分别对应了机器学习中的三种Aggregation类型，即Uniform Blending、Linear Blending和Any Blending

2. Uniform Blending

分类与回归模型的Uniform Blending

对于多分类模型，Uniform Blending可将得票数最多的那一类作为最终的分类结果，其中 $g_{t}(x)$ 表示我们现有的模型， $G(x)$ 表示混合后的模型：

图片名称

对于回归模型，Uniform Blending将每一个 $g_{t}(x)$ 求平均：

图片名称

Uniform Blending的可行性：

$f(x)$ 表示实际的预测结果， $g_{t}(x)$ 和 $f(x)$ 的平方误差与 $G(x)$ 的联系可通过如下推导得出：

图片名称

$(G-f)^{2}$ 这项表示混合后的模型与真实结果的误差，即Bias； $avg((g_{t}-G)^{2})$ 表示 $g_{t}$ 之间的相异性，即Variance。从推导结果可以看出 $g_{t}(x)$ 与 $G(x)$ 在预测误差上相差了 $avg((g_{t}-G)^{2})$ 这一项，即 $G(x)$ 的误差期望小于或等于任选一个 $g_{t}(x)$ 的误差期望。

3. Linear Blending和Any Blending

Linear Blending

对于回归问题，Linear Blending 就是将 $g_{t}(x)$ 的结果进行线性组合，使混合后的结果趋近目标值。

图片名称

在对 $\alpha$ 进行训练时需采用验证集，并且通常情况会去掉 $\alpha \geq 0$ 这个约束。这时候 $\alpha < 0$ 表示将模型起了反作用，所以将结果反着用。

Any Blending

注意overfitting问题

图片名称

4. Bootstrap （Bagging）

首先回顾一下如何获得不同的 $g(x)$ ，有如下4种方法：

图片名称

第一种是从不同的模型得到不同的 $g_{t}$ ，第二种是同一种模型设置不同的参数，第三种是设置不同的起始点，第四种是用不同的训练数据。

bootstrapping 的思想就是利用现有的训练数据模拟出不同的数据集，从而训练出不同的 $g_{t}$ 。具体做法是在训练集中进行re-sample，即经过多次有放回采样获得多个数据集。

关注

8
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Aggregation总结：Blending和Bootstrap

1. Aggregation 首先举一个买房的例子，假如你有10个朋友给出了买房的意见，你如何参考这10个人的意见做出决定呢？第一种办法是让大家投票，每人一票，最后选择得票数最多的那个选项第二种办法也是投票，与第一种不同的是每个人手里的票数不一样，懂行的人可能会分配更多的票数第三种办法是根据具体条件进行判断：这10个人中，有的人可能注重房源的地理位置，有的人可能更注重交通状况。根据不
复制链接

扫一扫

专栏目录

Joe-Han CSDN认证博客专家 CSDN认证企业博客

码龄11年

50: 原创

12万+: 周排名

122万+: 总排名

90万+: 访问

: 等级

4940: 积分

399: 粉丝

1007: 获赞

113: 评论

1863: 收藏

私信

关注

热门文章

分类专栏

TensorFlow 11篇
深度学习 8篇
Python 7篇
NLP 6篇
写作 1篇
eclipse 2篇
机器学习 12篇
java web 1篇
算法 9篇
LeetCode 7篇
Torch 1篇

最新评论

eclipse下配置Tomcat部署目录
weixin_46078926: 厉害解决问题
强化学习笔记(2)：Sarsa 与 Sarsa(lambda)
ᐒ: 那些大佬的脑子是真的6，到底是怎么想到这些个方法的。。
python实现二叉查找树
#＃H9: 逻辑是错误的，但这句话删了也没影响，del删除的是变量，即解除引用
Numpy数组的保存与读取
whutfan: 不是.npz吗？.npy是什么
强化学习笔记(2)：Sarsa 与 Sarsa(lambda)
footballreg: “另外，Q-Learning因为有了 maxQ，所以也是一个特别勇敢的算法，原因在于它永远都会选择最近的一条通往成功的道路，不管这条路会有多危险。而 Sarsa 则是相当保守，它会选择离危险远远的，这就是使用Sarsa方法的不同之处。” 根本就是想当然的胡扯，请问哪里体现出Sarsa 则是相当保守，它会选择离危险远远的？？？ Sarsa和Q-learning最大的区别就是选择A'时，Q-learning用的是纯贪婪的策略。而Sarsa则有一定几率选择随机策略。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。