我之前一段时间一直在研究用强化学习预测可转债市场,因为可转债是T+0,发现问题可以及时止损。
把N日内的交易数据正则化后,通过强化学习对第N日的转债价格进行判断是不是可以买入。这里其实进行的是单轮决策,并不是贯序决策。
最开始把所有转债数据混在一起进行训练,试图训练出一个针对所有转债的统一模型,尝试了很多次后发现训练的模型测试结果很不理想。所以我对每只转债单独训练一个模型,然后根据一个胜率阈值来确定保存模型参数。
先后尝试了Dyna-Q,DQN,Actor-Critic,TRPO,PPO算法,最后能确定下来模型的转债也只有几十只。幸好这几十支的回测和实盘胜率还不错。但是每次根据预测选出来的转债还是需要人工根据实际情况再筛选一遍,费时费力。
今天突然想到一个新想法,可充分利用强化学习的贯序决策能力。
就是把agent当作一个交易员,给它一定的本金,让它按照上面的模型算法来做买、不买、卖、不卖的动作决策,奖励=(股票资产价格+剩余本金)-本金。
接下来就准备把它实现看看效果如何。