摩根大通---深度强化学习在股票择时交易的应用

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


在八月一号,金融时报发布了一个关于摩根大通(JP Morgan Chase)优化交易程序的文章,如果你没有订阅金融时报,也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候,尽量减少对市场价格的影响。

这是一个非常复杂的系统,它是由下面的几部分组成:

这个系统算法的核心是 RL 算法,它根据市场的反映来学习最佳的择时交易动作(选择最优价格,交易持续时间和订单大小)。根据摩根大通做的技术报告,这个系统的强化学习算法同时用到了 Sarsa(On-Policy TD Control)和 Q-learning(Off-Policy Temporal Difference Control Algorithm)。技术报告,可以关注微信公众号 coderpai,后台回复 JPM 获得

Sarsa

Q-Learning

算法状态由价格序列,预期的价差成本,价格填充概率,订单大小以及交易时间长短,交易总量的百分比等等。奖励由立即奖励(差价)和最终奖励(交易结束)组,订单持续时间和市场惩罚(显然这些是负面的奖励机制)。

因为状态和动作空间太大了,不能被存储在表格中处理,所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的,如下:

摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示(2018年5月)。


原文来源:Medium

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值