摩根大通---深度强化学习在股票择时交易的应用

最新推荐文章于 2024-11-03 15:55:40 发布

coderpai

最新推荐文章于 2024-11-03 15:55:40 发布

阅读量7.3k

点赞数 1

分类专栏：人工智能文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CoderPai/article/details/80174109

版权

人工智能专栏收录该内容

197 篇文章

订阅专栏

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

在八月一号，金融时报发布了一个关于摩根大通（JP Morgan Chase）优化交易程序的文章，如果你没有订阅金融时报，也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候，尽量减少对市场价格的影响。

这是一个非常复杂的系统，它是由下面的几部分组成：

这个系统算法的核心是 RL 算法，它根据市场的反映来学习最佳的择时交易动作（选择最优价格，交易持续时间和订单大小）。根据摩根大通做的技术报告，这个系统的强化学习算法同时用到了 Sarsa（On-Policy TD Control）和 Q-learning（Off-Policy Temporal Difference Control Algorithm）。技术报告，可以关注微信公众号 coderpai，后台回复 JPM 获得

Sarsa

Q-Learning

算法状态由价格序列，预期的价差成本，价格填充概率，订单大小以及交易时间长短，交易总量的百分比等等。奖励由立即奖励（差价）和最终奖励（交易结束）组，订单持续时间和市场惩罚（显然这些是负面的奖励机制）。

因为状态和动作空间太大了，不能被存储在表格中处理，所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的，如下：

摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示（2018年5月）。

原文来源：Medium

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。