Aggregation总结:Blending和Bootstrap

1. Aggregation

首先举一个买房的例子,假如你有10个朋友给出了买房的意见,你如何参考这10个人的意见做出决定呢?

  1. 第一种办法是让大家投票,每人一票,最后选择得票数最多的那个选项
  2. 第二种办法也是投票,与第一种不同的是每个人手里的票数不一样,懂行的人可能会分配更多的票数
  3. 第三种办法是根据具体条件进行判断:这10个人中,有的人可能注重房源的地理位置,有的人可能更注重交通状况。根据不同的条件参考不同人的意见。

Aggregation的目的就是要融合多个hypothesis,从而达到更好的预测效果。
以上三种投票方式分别对应了机器学习中的三种Aggregation类型,即Uniform Blending、Linear Blending和Any Blending

2. Uniform Blending

分类与回归模型的Uniform Blending

对于多分类模型,Uniform Blending可将得票数最多的那一类作为最终的分类结果,其中 gt(x) 表示我们现有的模型, G(x) 表示混合后的模型:

图片名称

对于回归模型,Uniform Blending将每一个 gt(x) 求平均:

图片名称

Uniform Blending的可行性:

f(x) 表示实际的预测结果, gt(x) f(x) 的平方误差与 G(x) 的联系可通过如下推导得出:

图片名称

(Gf)2 这项表示混合后的模型与真实结果的误差,即Bias; avg((gtG)2) 表示 gt 之间的相异性,即Variance。从推导结果可以看出 gt(x) G(x) 在预测误差上相差了 avg((gtG)2) 这一项,即 G(x) 的误差期望小于或等于任选一个 gt(x) 的误差期望。

3. Linear Blending和Any Blending

Linear Blending

对于回归问题,Linear Blending 就是将 gt(x) 的结果进行线性组合,使混合后的结果趋近目标值。

图片名称

在对 α 进行训练时需采用验证集,并且通常情况会去掉 α0 这个约束。这时候 α<0 表示将模型起了反作用,所以将结果反着用。

Any Blending

注意overfitting问题

图片名称

4. Bootstrap (Bagging)

首先回顾一下如何获得不同的 g(x) ,有如下4种方法:

图片名称

第一种是从不同的模型得到不同的 gt ,第二种是同一种模型设置不同的参数,第三种是设置不同的起始点,第四种是用不同的训练数据。

bootstrapping 的思想就是利用现有的训练数据模拟出不同的数据集,从而训练出不同的 gt 。具体做法是在训练集中进行re-sample,即经过多次有放回采样获得多个数据集。

  • 8
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值