本文字数:2971字
预计阅读时间:18分钟
作者介绍
王明杰,北京师范大学珠海校区研究助理。2021年搜狐校园文本匹配算法大赛第二名获得者,曾在Kaggle、天池等国际算法大赛获得优异成绩:
• Kaggle Jane Street Market Prediction TOP1
• Kaggle Mechanisms of Action (MoA) Prediction 银牌
• Kaggle SIIM-ISIC Melanoma Classification 银牌
本篇文章是明杰同学参加Kaggle Jane Street Market Predictio的竞赛总结,希望通过此次技术分享为各位同学提供些许算法思路,并在其他竞赛中取得更好成绩:)
#1
今天的贸易系统在很大程度上依赖于技术的运用。市场每天都在运作,为了在这种动态的市场中生存下去,我们需要使用所有有用的东西。机器学习模型就是一个十分出色的选择。因为它非常善于理解模式和预测,并且随着技术的发展,机器学习在市场价格预测中的应用越来越多。结合机器学习模型和人类知识可以做到十分出色的市场预测。
#2
在Kaggle Jane Street Market Prediction里,我们需要使用来自全球主要的证券交易所的市场数据构建量化交易模型,并且在真实的未来数据上测试我们的模型性能。
该数据集包含一组匿名特征feature_{0...129},对于数据与标签我们都不知道它们代表了什么含义。我们只知道,它们代表真实的股票市场数据。
数据集中的每一行代表一个交易,我们将为其预测一个action值:1 表示进行交易,0 表示不进行交易。每笔交易都有一个关联的weight和resp,它们组合在一起代表了交易的回报率。该date列是一个整数,代表交易日。
#3
比赛的metrics为Utility Score:
Pi代表了每一天的收入;
weight是购买stock的数量;
resp是 未来交易时的价格浮动;
action 则代表是否进行这次交易。
值得注意的是,比赛中存在很严重的过拟合公榜的现象,很多人发布了针对公榜调参的模型。最终在私榜上的抖动还是比较严重的,但是可以发现公榜和私榜存在线性相关。
简单数据格式如下:
这是我们队伍最终获得的成绩: