随机森林_袋外错误率（OOB error）

最新推荐文章于 2024-07-07 22:39:30 发布

晓风^_^晴

最新推荐文章于 2024-07-07 22:39:30 发布

阅读量1.4w

点赞数 3

文章标签：机器学习数据挖掘

原文链接：https://www.jianshu.com/p/b94ec2fc345d

版权

在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中，故没有参加决策树的建立，这些数据称为袋外数据oob，用于取代测试集误差估计方法，可用于模型的验证。
下面先介绍下oob的使用，其中（x,y）代表输入的样本和label，g表示的是构建的树。
在这里插入图片描述
构建随机森林的关键问题就是如何选择最优的m（从总量为M的特征向量中，随机选择m个特征），要解决这个问题主要依据计算袋外错误率。
　　随机森林有一个重要的优点就是，没有必要对它进行交叉验证或者用一个独立的测试集来获得误差的一个无偏估计。它可以在内部进行评估，也就是说在生成的过程中就可以对误差建立一个无偏估计。
　　在构建每棵树时，我们对训练集使用了不同的bootstrap sample（随机且有放回地抽取）。所以对于每棵树而言（假设对于第k棵树），大约有1/3的训练实例没有参与第k棵树的生成，它们称为第k棵树的袋外样本数据。
而这样的采样特点就允许进行袋外估计，它的计算方式如下：
　　a. 对每个样本，计算它作为袋外样本的树对它的分类情况（约1/3的树）；
　　b. 然后以简单多数投票作为该样本的分类结果；
　　c. 最后用误分个数占样本总数的比率作为随机森林的袋外错误率。

参考链接：https://www.jianshu.com/p/b94ec2fc345d

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
随机森林_袋外错误率（OOB error）

在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中，故没有参加决策树的建立，这些数据称为袋外数据oob，用于取代测试集误差估计方法，可用于模型的验证。下面先介绍下oob的使用，其中（x,y）代表输入的样本和label，g表示的是构建的树。构建随机森林的关键问题就是如何选择最优的m（从总量为M的特征向量中，随机选择m个特征...
复制链接

扫一扫

晓风^_^晴 CSDN认证博客专家 CSDN认证企业博客

码龄6年

0: 原创

64万+: 周排名

121万+: 总排名

1万+: 访问

: 等级

116: 积分

1: 粉丝

3: 获赞

1: 评论

27: 收藏

私信

关注

热门文章

随机森林_袋外错误率（OOB error） 14514

最新评论

随机森林_袋外错误率（OOB error）
Hong.L.JW: a. 对每个样本，计算它作为袋外样本的树对它的分类情况（约1/3的树）；应该是“约1/3的样本”吧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。