集成学习中笔记 02 bagging的原理和案例分析

本文介绍了集成学习中的bagging方法,重点讨论了其基本原理,包括随机森林中的决策树构建和数据的自助采样。bagging通过训练数据的不同子集生成差异化的基模型,以提高整体预测性能。在案例分析中,展示了bagging在实际应用中的效果,得到了较高的预测准确率。
摘要由CSDN通过智能技术生成

集成学习中笔记 02 bagging的原理和案例分析

开源学习地址:datawhale

1.bagging基本原理

bagging,顾名思义,对众多基模型进行打包处理。bagging中最典型的便是随机森林,森林由众多树组成。这里的树便是bagging中的基模型(bagging最典型的基模型就是树结构)。
那么森林里的每棵树又是怎么生成的呢?
在这里插入图片描述
参考上面这幅图,每棵树训练的数据来源于对初始数据集的自助采样(boostrap)。这种采样方式是有放回的,也就意味着多次采样之后形成的数据集彼此之间具有一定的差异性。
上一节提到bagging的基本要求之一便是要保证基模型彼此之间巨大较大的差异性。当用于训练的数据集不同,训练出的基模型自然便具有了较大的差异性。利用这一点,对采样后的多个数据集分别训练,得到不同的决策树。
这里稍微提一下决策树的构造方法,具体可参考开源学习的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值