实用随机森林 - 针对时间序列的 kaggle 技巧

本文探讨了在时间序列分析中使用随机森林时的优化方法,包括OOB与validation set的区别、时间序列模型建立的技巧以及如何处理时间相关的特征以减少过拟合。通过实例展示了特征重要性分析和去除无关特征对模型性能的影响。
摘要由CSDN通过智能技术生成

这节课我们主要讲讲:

1。OOB 和 validation 的数值计算上区别

2。时间序列模型建立时,如何处理 validation 和 test 与模型精度控制的小技巧

3。去掉时间相关的元素 —— 消除训练集里面过拟合的特征

---

1。OOB 和 validation set 数值计算上的差别

这两个数值有 2 点不一样:

a。使用的数据不一样

为了更好的得到模型验证的结果,所以我们往往使用一种比较特别的 train/validation split 方式,我们不是直接随机分类得到,而是根据时间顺序,取时间更为久远的作为 train set,取时间较为近的作为 validation set。因此,OOB计算的数据其实来自于 train set,是整个train set 里面随机收取的数据,其结果更适用于解释模型是否过拟合。而 validation set 则完全是时间纬度上更新的数据,因此其结果更适合用于说明模型的泛化情况。

b。数据量不一样

在 OOB 中,你的数据是 out of bag 数据,因此每个数据被用于计算的情况,是它没有被 train 选中的情况,这里的数据被选中的概率就低于 100%。而在 validation set 里面,每一次每个数据被会被计算,因此,计算概率是 100%。因此两者的数据计算均衡性有差别,通常我们认为,OOB 会比实际情况更低一点,

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值