机器学习技法总结(四)(aggregation,vote,bootstrap...)

标签: bootstrap 机器学习 select 算法 structure
2110人阅读 评论(0) 收藏 举报
分类:

研究的动机是:我们采用了不同的模型得到T个不同的g,那么我们是不是可以通过这些不同的g的融合得到更加出色的G呢?因此,便有了以上四种不同的方法;1)(select)直接选择最好的一个作为融合的结果;2)(uniform)所有的g公平vote;3)(non-uniform)相当于你比较相信某个结果,就赋予它较高的vote权重,这种类似于二次回归问题,就是说,先对不同模型进行优化得到不同的g,然后再次优化做出回归;4)很简单的predictions conditionally。前面的都可以看作是后面的特例。


上图解释了通过aggregation,通过均匀的弱的hypothesis的mix,我们可以实现比较弯弯曲曲的分界线,这是不是实现了特征转换,使得Ein比较小?另外,这样多次的mix,可能使得PLA取得比较靠中间的那个hypothesis,这样是不是就类似了svm中的large margin的效果,这样aggregation就类似于能够较好的实现特征转换和正则化。

在设计融合的时候,要注意一点,如果我们直接从Ein中选择最小的作为目标的话,这就像是扩大了Hypothesis set的大小,那么VC dimension则变大了,很容易出现overfitting,因此,最好的办法还是通过validation来赛选g-,然后再回传g进行融合。如下图所示:


下面如何得到不同的g呢?主要有以下几种:不同模型,不同的参数,不同的数据等...


借助统计中的一个bootstrap可以实现对data的重新采样,得到了一下的方法:


林老师讲了一个利用PLA作为算法,然后借助bootstrap-aggregation得到了如下的效果:


从图中的效果可以看出,其实效果还不错。

主要关注两个方向:一个是g的diversity,二是democracy。


查看评论

什么是Bootstrap Aggregating

Bootstrap Aggregating也叫作bagging,是一种机器学习领域用来做模型合并的一种算法。这种算法可以提高统计分类器和回归器的稳定性和准确度。同时也可以帮助模型避免过拟合。...
  • u010158659
  • u010158659
  • 2016-04-26 11:07:22
  • 2274

机器学习笔记(8)——集成学习之Bootstrap aggregating(Bagging)装袋算法

Bootstrap aggregating自举汇聚法 Bagging装袋法 1.概念 是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据...
  • qq_37423198
  • qq_37423198
  • 2017-08-06 22:56:07
  • 821

Aggregation总结:Blending和Bootstrap

1. Aggregation 首先举一个买房的例子,假如你有10个朋友给出了买房的意见,你如何参考这10个人的意见做出决定呢? 第一种办法是让大家投票,每人一票,最后选择得票数最多的那个选项 ...
  • u010089444
  • u010089444
  • 2016-11-01 09:22:58
  • 2623

bootstrap, boosting, bagging 几种方法的联系

这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,...
  • jlei_apple
  • jlei_apple
  • 2012-11-10 12:29:16
  • 23817

多数投票算法 --- A linear time majority vote algorithm

多数投票算法 --- A linear time majority vote algorithm
  • u012965373
  • u012965373
  • 2016-08-01 10:49:35
  • 851

高斯分布 (Gaussian distribution)

采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因。......
  • weixin_40759186
  • weixin_40759186
  • 2018-02-25 20:17:47
  • 34

bootstrap算法

待续
  • u012159053
  • u012159053
  • 2014-05-26 14:18:53
  • 397

多元高斯分布及多元条件高斯分布

已知 D 维向量 x,其高斯概率分布为:N(x|μ,Σ)
  • lanchunhui
  • lanchunhui
  • 2016-10-29 13:06:11
  • 3028

机器学习基础(十六)—— bootstrap

bootstrap:抽出来、记录下来、放回去 bootstrapping:一个统计工具,对同一份数据集,进行不同的重采样(re-sample)以模拟不同的数据集出来,避免了 cross-validat...
  • lanchunhui
  • lanchunhui
  • 2016-03-24 23:35:23
  • 1676

机器学习:Bootstrap

Bootstrap 最近在看一篇论文 Training Deep Nets with Imbalanced and Unlabeled Data,主要是讲通过一种欠采样的方法解决DBN网络中...
  • oMengLiShuiXiang1234
  • oMengLiShuiXiang1234
  • 2015-12-13 10:38:02
  • 3761
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 214万+
    积分: 2万+
    排名: 341
    公告
    进行测试
    博客专栏
    最新评论