Bagging and Random Forest

最新推荐文章于 2023-12-19 17:32:54 发布

Chungchinkei

最新推荐文章于 2023-12-19 17:32:54 发布

阅读量264

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39315740/article/details/93714574

版权

本文介绍了Bagging方法，包括自助采样法、基本流程和结合策略。Bagging通过自助采样创建多个训练集，训练基学习器并采用投票或平均法结合。随机森林作为Bagging的扩展，增加了特征选择的随机性，提高了基学习器的多样性。随机森林中，每棵树权重相等，通过平均投票进行预测。

摘要由CSDN通过智能技术生成

Bagging

Bagging是并行式集成学习方法的代表之一，全称是Bootstrap aggregating，这个名字来源于bootstrap samping和 aggregation的思想。

自助采样法（bootstrap sampling）

在这里插入图片描述
上图来自林轩田教授的PPT，对于包含m个样本的训练集，有放回地取出m个样本。采样后初始训练集中约有63.2%的样本会出现在采样集中，剩下36.8%的样本可以作为验证集进行包外估计（out-of-bag estimate）。因为在训练中分类器从来没有看到过 oob 样本，所以它可以在这些样本上进行评估，而不需要单独的验证集或交叉验证。

基本流程

在这里插入图片描述
按照自助采样法，采样出T个含m个样本的采样集，然后基于每个采样集训练出一个基学习器，再将基学习器进行结合。

结合策略（aggregation）

对于分类任务，常采用投票法，使用类标签进行投票称为硬投票，使用类概率进行投票称为软投票；
对于回归任务，常采用普通平均法（基学习器性能相近时）和加权平均法（基学习器性能差异较大时）。

随机森林

随机森林（Random Forest）是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging的基础上，进一步在决策树的训练过程中引入了随机属性选择。

对样本进行自助采样
对特征进行随机选择

对特征进行随机选择是指，在特征集合d中随机选取了k个特征进行训练，推荐值 $k=\log{d}$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bagging and Random Forest

BaggingBagging是并行式集成学习方法的代表之一，全称是Bootstrap aggregating，这个名字来源于bootstrap samping和 aggregation的思想。自助采样法（bootstrap sampling）对于包含m个样本的训练集，有放回地取出m个样本。采样后初始训练集中约有63.2%的样本会出现在采样集中，剩下36.8%的样本可以作为验证集进行包外估计...
复制链接

扫一扫

专栏目录

Chungchinkei CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

32万+: 周排名

43万+: 总排名

4万+: 访问

: 等级

1115: 积分

15: 粉丝

20: 获赞

16: 评论

98: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇
深度学习 1篇
大数据 10篇
Linux 5篇
常用算法 2篇
剑指Offer 48篇
LeetCode 25篇
Python 1篇
数据挖掘

最新评论

CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
Nidalee_: 我的hive能启动能建库建表就报错我疯了
Spark的jupyter notebook开发环境搭建及pyspark的使用
lmw0320: 有几点不明之处，恳请指点下： 1. 远程linux服务器已经安装好了hadoop和spark, 但是没有安装python。只是本地的终端安装了python和jupyter，可以吧？ 2. 本地的终端连接远程的spark，需要在本地终端安装好pyspark吧？那本地是否也要安装spark和hadoop及JDK呢？？这点一直理不清楚。。
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
偶白: 大哥，你的路径里面local都能拼错吗
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
Chungchinkei: 这个跟完全二叉树没有关系，主要判断的是遍历的过程是不是先增后减的。如果是先增后减（搜索树大小性质），则index必然会等于size；如果遍历中有多个增减的过程，则证明该树不是搜索树。
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
番茄大人: 不好意思啊，有点没看懂,二叉搜索树不是完全二叉树，请问为什么if index != size: return False 成立呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。