随机森林中,为什么oob样本的数量是三分之一

今天看了RF,发现里面有一个1/3的概率,但到底怎么求出来的,很多并没有写,所以我查了查资料,推了一下公式。

模型评估方法

在机器学习中,通常把样本分成训练集和测试集,在划分样本的过程中,存在着不同的抽样方法。

有哪些抽样方法,他们有什么优缺点

1.Holdout检验
直接样原始样本37分,70%为训练集,30%为测试集。绘制ROC曲线,计算准确率,召回率。
缺点:没有随机性。

2. 交叉检验
将全部样本划分成K个大小相等的样本子集,一次遍历这些子集,每次把当前子集作为验证集,其余所有子集当做训练集。最后把k次评估指标的平均值作为最终的评估指标。一般k=10,但是开销大。

3. 自助法
自助采样的方法进行随机有放回的抽样。总样本N,N次有放回的抽样。有的样本会被重复采集。
一次样本在一次抽样中被抽中的概率是1/n,没有被抽中的概率是1-1/n,那么n次没有被抽中的概率是(1-1/n)^n,当n趋于无穷时,对他求极限,得出36.8%
在这里插入图片描述
因此当样本数很大的时候,大约有36.8%的样本没有被选择过,可作为验证集。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值