关于用强化学习进行股市预测的新思路(1)

我之前一段时间一直在研究用强化学习预测可转债市场,因为可转债是T+0,发现问题可以及时止损。

把N日内的交易数据正则化后,通过强化学习对第N日的转债价格进行判断是不是可以买入。这里其实进行的是单轮决策,并不是贯序决策。

最开始把所有转债数据混在一起进行训练,试图训练出一个针对所有转债的统一模型,尝试了很多次后发现训练的模型测试结果很不理想。所以我对每只转债单独训练一个模型,然后根据一个胜率阈值来确定保存模型参数。

先后尝试了Dyna-Q,DQN,Actor-Critic,TRPO,PPO算法,最后能确定下来模型的转债也只有几十只。幸好这几十支的回测和实盘胜率还不错。但是每次根据预测选出来的转债还是需要人工根据实际情况再筛选一遍,费时费力。

今天突然想到一个新想法,可充分利用强化学习的贯序决策能力。

就是把agent当作一个交易员,给它一定的本金,让它按照上面的模型算法来做买、不买、卖、不卖的动作决策,奖励=(股票资产价格+剩余本金)-本金。

接下来就准备把它实现看看效果如何。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值