【Kaggle量化比赛】Top讨论

问:
惊人的单模型得分,请问您使用了多少个特征来获得如此高的得分?我也在使用LGB模型。

235个特征(180个基本特征+滚动特征)
问:
您是在使用Polars进行特征工程还是仅依赖于Pandas+Numba/多进程?即使进行了Numba优化,我也发现当滚动特征过多时,推理速度会非常慢。在Colab T4上使用在线流式评估,完成一个qp需要超过7秒。

使用Numba和多进程构建特征的速度非常快。

问:
你介意分享一下你是否在使用像zerosum这样的技术吗?谢谢!
prediction - prediction.mean()优于zerosum

问:
但到目前为止,我的结果有点奇怪。我已经检查了基于kfold的模型直到第435次迭代的结果。我只是最近才用435之后的数据再次检查了准确率。我认为我的提交代码有些问题,但我的测试结果与pb准确率关联度不高。
答:
由于数据的时间性质,KFold可能不是这次比赛的最佳策略。出于同样的原因,检查特征是否存在导致前瞻偏差的泄露是很有必要的。
我这里说的kfold是基于时间序列的kfold,使用窗口的方式。(示例图片)正如你所说,我担心数据泄露,所以在计算滚动特征时,我先对stock_id和date_id进行了分组。我觉得我需要进一步检查。

彩虹屁:
  • 34
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值