机器学习系列-Bagging与随机森林

最新推荐文章于 2022-10-12 17:43:27 发布

bubingy

最新推荐文章于 2022-10-12 17:43:27 发布

阅读量493

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bubingyang/article/details/78635684

版权

Bagging

集成学习算法有两个大类:一个是Boosting，代表算法是AdaBoost；另一个是Bagging，本文介绍的随机森林是它的一个变种。

Bagging也叫自举汇聚法（bootstrap aggregating），它在原始数据集上通过有放回抽样重新选出 $T$ 个包含 $m$ 条数据的新数据集来训练分类器。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。

随机森林

随机森林是Bagging的一个变体，它在以决策树为基学习器构建Bagging集成的基础上，在决策树的训练中引入随机属性选择。

传统的决策树在选择划分属性时在当前结点的属性集合上选择一个最优划分属性(假设有 $d$ 个属性)，而在随机森林中，对决策树的每个节点，首先从该结点的属性集合中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性进行划分。这里的参数 $k$ 控制着随机性程度：如果 $k=d$ ，那么，基决策树的构建与传统决策树相同；如果 $k=1$ ，则是随机选择一个属性用于划分；一般情况下推荐 $k=log_{2}d$ 。

随机森林的优缺点

随机森林的优点

在当前的很多数据集上，相对其他算法有着很大的优势，表现良好。
它能够处理很高维度的数据，并且不用做特征选择。
在训练完后，它能够给出哪些feature比较重要。
在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强。
训练速度快，容易做成并行化方法。
在训练过程中，能够检测到feature间的互相影响。
实现比较简单。
对于不平衡的数据集来说，它可以平衡误差。
如果有很大一部分的特征遗失，仍可以维持准确度。

随机森林的缺点

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列-Bagging与随机森林

Bagging集成学习算法有两个大类:一个是Boosting，代表算法是AdaBoost；另一个是Bagging，本文介绍的随机森林是它的一个变种。Bagging也叫自举汇聚法（bootstrap aggregating），它在原始数据集上通过有放回抽样重新选出TT个包含mm条数据的新数据集来训练分类器。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类，然后用多数投票或者
复制链接

扫一扫

bubingy CSDN认证博客专家 CSDN认证企业博客

码龄9年

36: 原创

18万+: 周排名

157万+: 总排名

8万+: 访问

: 等级

1185: 积分

116: 粉丝

41: 获赞

6: 评论

107: 收藏

私信

关注

热门文章

最新评论

玩转python（7）python多协程，多线程的比较
bubingy 回复梦想呱: 哈哈，目前我也想不出具体的场景，但是不妨从这点来考虑：协程是协作式多任务，线程是抢占式多任务。并不是所有的应用场景都适合用多任务协作的方式：）
玩转python（7）python多协程，多线程的比较
梦想呱回复 bubingy: 那么楼主，想问下，协程优于多线程，那么是否可以使用协程代替多线程，以及什么情况下使用协程什么情况下使用多线程
玩转python（7）python多协程，多线程的比较
bubingy 回复 weixin_40672042: 我之前写的代码，t.join() 直接跟在 t.start()之后，因为t.join() 阻塞主线程，所以当前线程执行完之后才会进入下一个循环，相当于串行执行。如果你既要使用join()，又不想让他并发执行，只要让t.join() 和t.start() 不在一个循环体内就行。
玩转python（7）python多协程，多线程的比较
weixin_40672042: 你好，问一下多进程改进方案中，为什么：“如果调用join()阻塞主线程，那么相当于串行执行”
机器学习系列-主成分分析
bubingy 回复一个处女座的程序媛: 原来是前端大神，膜拜了（^-^）

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。