文章目录
本节课主要介绍Aggregation Models,目的是将不同的hypothesis得到的g集合起来,利用集体智慧得到更好的预测模型G。分为两种:blending和bagging。
1.首先介绍了Blending,blending是将已存在的所有g结合起来,可以是uniformly, linearly或者non-linearly组合形式。
2.然后讨论在没有那么多g的情况下,使用bootstrap方式,从已有数据集中得到新的类似的数据集,从而得到不同的g。这种做法称为bagging。
1.Aggregation model
通过aggregation的方法,我们可以得到更强的大G,或者更中庸的大G(油门和刹车都控制好了)。
aggregation里的两种:blending和bagging
2.Blending(混合)
已知g(x)
2.1 Uniform blending(voting)
classification:取多数值,少数服从多数
Regression:取平均值
2.2 Linear and any blending
对g做线性组合的运算
(待补充)
3.Bagging(bootstrap aggregation:BAGging)
Bagging:从训练集进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果,至于为什么叫bootstrap aggregation,因为它抽取训练样本的时候采用的就是bootstrap的方法。
Bootstrap(自助法)
bootstrap是一种抽样方法。
子样本之于样本,可以类比样本之于总体。
Bagging策略过程
步骤:
1)从样本集中用Bootstrap采样选出n个训练样本(放回,因为别的分类器抽训练样本的时候也要用)
2)在所有属性上,用这n个样本训练分类器(CART or SVM or …)
3)重复以上两步m次,就可以得到m个分类器(CART or SVM or …)
4)将数据放在这m个分类器上跑,最后投票机制(多数服从少数)看到底分到哪一类(分类问题)
视频链接:https://www.bilibili.com/video/av12469267/?p=26
参考链接:https://www.jianshu.com/p/708dff71df3a