简单易懂的人工智能系列：集成学习Bagging

最新推荐文章于 2022-12-31 21:16:40 发布

薛定谔的猫96

最新推荐文章于 2022-12-31 21:16:40 发布

阅读量749

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767170

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

Bagging

Bagging（Bootstrap aggregating，引导聚集算法或自举汇聚法），又称装袋算法，最初由Leo Breiman于1996年提出。它是通过结合几个模型降低泛化误差的技术。

，也称为bagging方法。Bagging对训练数据采用自举采样（boostrap sampling），即有放回地采样数据，主要思想：

主要思想是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子，被称为模型平均（modelaveraging）。采用这种策略的技术被称为集成方法。

训练步骤如下：

最终模型有对个分类器模型投票得出，投票公式如下：

然后使用最终模型对新数据进行预测

Bagging效果

俗话说的好，“三个臭皮匠顶个诸葛亮”，通过较为容易的生成多个弱分类器，来组合出更优模型，比如从一个训练样本中有放回的抽样生成三个样本，训练出三个60%的模型，叠加成投票模型。现在假如我们有一条新数据，三个模型预测正确与否的可能情况有以上8种，投票采用少数服从多数，也就是说有两个模型预测正确就认为投票模型预测正确。每一种情况的概率可以计算得出，投票模型的预测成功的概率提升至64.8%。

根据上面的计算，可得：

但是这并不意味着，弱分类器模型个数越多，准确率就越好，实际上这是理想状态下，我们之前的假设是模型与模型之间是独立的，事实上是不可能独立的，第一，选择的模型算法一样，第二，训练的数据集也不是完全独立的，现实情况下，不可能达到这种提升率的。

与Boosting的区别

样本选择上：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
样例权重：使用均匀取样，每个样例的权重相等。
预测函数：所有预测函数的权重相等。
并行计算：各个预测函数可以并行生成。

将不同的分类算法套入到此类算法框架中一定程度上会提高了原单一分类器的分类效果，但是也增大了计算量。

下面是将决策树与这些算法框架进行结合所得到的新的算法：

Bagging + 决策树 = 随机森林
AdaBoost + 决策树 = 提升树
Gradient Boosting + 决策树 = GBDT

本文关注对象随机森林

随机森林：RandomForest

随机森林是由许多决策树所组成的，其中树的生成采用了随机的方法，是Smart Bagging集成算法，它相比传统的Bagging，它不仅在行的方向上随机抽取样本（记录），同时在记录的列上进行随机的抽取。

生成的步骤：

随机采样，生成多个样本集
对每个样本集构建决策树

具有以下的优点：

可以处理多分类的问题
很大程度上减少了过拟合
容易实现并行
对数据的容错能你强

构建随机森林的流程图

其中每组决策树可以选择不同的算法来生成（ID3，C4.5，CART）。

薛定谔的猫96

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

薛定谔的猫96 CSDN认证博客专家 CSDN认证企业博客

码龄6年

400: 原创

3万+: 周排名

45万+: 总排名

75万+: 访问

: 等级

8089: 积分

474: 粉丝

689: 获赞

80: 评论

4133: 收藏

私信

关注

热门文章

分类专栏

计算机网络 2篇
剑指offer 68篇
数据库 4篇
数学 1篇
Golang 4篇
开发工具 1篇
C/C++ 24篇
Python 83篇
Flask 3篇
Django 9篇
Vim 3篇
机器学习 18篇
git和github入门 5篇
量子通信和量子计算 1篇
操作系统 5篇
数据结构 6篇
计算机组成原理 7篇
算法 6篇
后端 30篇
前端 123篇
下载安装的教程 5篇
Linux运维 16篇
web 8篇
版本管理 7篇
爬虫 7篇
面试 23篇

最新评论

轻量级web开发框架：Flask 基础教程
萨尔兹堡: 请问有Windows版本的吗
Django初步使用Celery处理耗时任务和定时任务
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
关于浏览器输入一个网址后页面经历的过程总结
2301_81025433: 1337798922388888888
Python数据分析基础技术之pandas（史上最全面）
Aphil_D: 我觉得DataFrame.unique()实现的效果比起“查询不重复的值”更像“统计值的种类”，.nunique()就是“统计值的种数”。
前端需要理解的 HTML 知识
海洋之心: HTML总结的很好，很适合新手学习

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

薛定谔的猫96 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。