利用强化学习进行股票操作实战(三)

与上一篇文章相同之处

对于交易策略,与上一篇文章相同,当发出买入指令时,一次性全部买入;当发出卖出指令时,一次性全部卖出。还没有添加加减仓操作。

模型仍然用的是DQN模型。

新增内容

  1. 在之前的基础上加入了交易手续费、印花税等。

  2. 在强化学习这个领域中,reward函数是一个需要精心设计的函数。目前暂时没有好的reward设计思路,但还是修改了之前的reward函数。(其实之前的reward的设计也是错的)

首先将第二天的股票价格的涨跌幅当做reward。

reward =(self.trend[self.t + 1] - self.trend[self.t]) / self.trend[self.t]

在股市的涨跌中,很多涨跌其实是无意义的涨跌(小幅度的上涨或小幅度的下跌回调),如果把这些因素考虑进去会造成模型难以提取到一些有效信息。因此,当涨跌幅较小时,我设置了reward进行一定程度的缩小。当涨跌程度较大时,我认为这个可能也会影响模型的判断,我同样设置了reward以一定程度缩小,核心代码如下:


       if np.abs(reward)<=0.015:
           self.reward = reward * 0.2
       elif np.abs(reward)<=0.03:
           self.reward = reward * 0.7
       elif np.abs(reward)>=0.05:
           if reward < 0 :
                self.reward = (reward+
  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值