DW集成学习Task5 Bagging

(视频在Task4中已看完,主要写一下主要的几个问题)

1.什么是Bootstrap?

称为“自助法”,是指用原样本自身的数据抽样得出新的样本及统计量,是一类Monte Carlo方法,实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。由于从总体中重复多次抽取样本常常是不方便甚至无法实施的,因此Bootstrap只从总体中抽取一次样本,再在这个样本中进行多次有放回地抽样,得到多个“样本的样本”,通过统计这些小样本的分布,得到总体的统计量。
Bootstrap方法充分利用了给定的观测信息,不需要模型其他的假设和增加新的观测,并且具有稳健性和效率高的特点。
在这里插入图片描述
其核心思想和基本步骤如下:
(1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2) 根据抽出的样本计算给定的统计量T。
(3) 重复上述N次(一般大于1000),得到N个统计量T。
(4) 计算上述N个统计量T的样本方差,得到统计量的方差。

2.bootstrap和bagging的联系

Bagging方法从训练集抽取子训练集时采用的就是bootstrap方法。

3.什么是bagging

Bagging是从训练集进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。
在这里插入图片描述
基本步骤如下:
(1)从样本集中用Bootstrap采样选出n个训练样本(有放回地抽样,因为别的分类器抽取训练样本的时候也要用)
(2)在所有属性上,用这n个样本训练分类器
(3)重复以上两步m次,就可以得到m个分类器
(4)将数据放在这m个分类器上跑,最后投票机制(少数服从多数)看到底分到哪一类(分类问题)

4.随机森林和bagging的联系与区别

联系:随机森林(Random Forest,简称RF),是Bagging算法的进化版,思想仍是bagging,但是进行了改进。
区别:RF选择了CART决策树作为弱分类器;bagging是在节点上所有n个样本特征中选择一个最优的特征来做决策树的左右子树划分,而RF先随机选择节点上的一部分样本(少于n个)特征,在这些随机选择的样本特征中选择一个最优的特征来划分决策树的左右子树,进一步增强了模型的泛化性能。

5.使用偏差与方差理论阐述为什么bagging能提升模型的预测精度

bagging在牺牲偏差的条件下,降低了方差,从而减小模型的均方误差。
bagging从训练集中有放回地抽取m个子训练集,并分别训练出基决策树。由于抽取子训练集的过程是独立的,因此基于这些子训练集得到的推断结果也是独立的。根据期望和方差的运算性质可知,方差为原来的1/m。又因为bagging对总体数据集进行抽样,导致其模型的数据集与原始数据集的分布不同,从而导致模型估计偏差的提高。但当bias增加的量小于variance减小的量时,模型的均方误差还是减小的,所以说bagging是以牺牲bias为代价提高模型精度的。

参考链接:
https://www.jianshu.com/p/708dff71df3a
https://blog.csdn.net/lihaitao000/article/details/52058486
https://www.cnblogs.com/pinard/p/6156009.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值