利用强化学习进行股票操作实战（三）

最新推荐文章于 2024-06-27 15:06:18 发布

wbbhcb

最新推荐文章于 2024-06-27 15:06:18 发布

阅读量4.3k

点赞数 2

分类专栏：量化杂文文章标签：强化学习机器学习量化投资股票量化研究

本文链接：https://blog.csdn.net/qq_31611005/article/details/104394758

版权

与上一篇文章相同之处

对于交易策略，与上一篇文章相同，当发出买入指令时，一次性全部买入；当发出卖出指令时，一次性全部卖出。还没有添加加减仓操作。

模型仍然用的是DQN模型。

新增内容

在之前的基础上加入了交易手续费、印花税等。
在强化学习这个领域中，reward函数是一个需要精心设计的函数。目前暂时没有好的reward设计思路，但还是修改了之前的reward函数。（其实之前的reward的设计也是错的）

首先将第二天的股票价格的涨跌幅当做reward。

reward =(self.trend[self.t + 1] - self.trend[self.t]) / self.trend[self.t]

在股市的涨跌中，很多涨跌其实是无意义的涨跌（小幅度的上涨或小幅度的下跌回调），如果把这些因素考虑进去会造成模型难以提取到一些有效信息。因此，当涨跌幅较小时，我设置了reward进行一定程度的缩小。当涨跌程度较大时，我认为这个可能也会影响模型的判断，我同样设置了reward以一定程度缩小，核心代码如下：


       if np.abs(reward)<=0.015:
           self.reward = reward * 0.2
       elif np.abs(reward)<=0.03:
           self.reward = reward * 0.7
       elif np.abs(reward)>=0.05:
           if reward < 0 :
                self.reward = (reward+

最低0.47元/天解锁文章

wbbhcb

关注

2
点赞
踩
28

收藏

觉得还不错? 一键收藏
3
评论
利用强化学习进行股票操作实战（三）

与上一篇文章相同之处对于交易策略，与上一篇文章相同，当发出买入指令时，一次性全部买入；当发出卖出指令时，一次性全部卖出。还没有添加加减仓操作。模型仍然用的是DQN模型。新增内容在之前的基础上加入了交易手续费、印花税等。在强化学习这个领域中，reward函数是一个需要精心设计的函数。目前暂时没有好的reward设计思路，但还是修改了之前的reward函数。（其实之前的reward的...
复制链接

扫一扫