基于深度强化学习的股票交易策略模型,效果显著超越Global X Guru、Mirae Asset等全球金融服务公司

深度强化学习(DRL)在股票交易策略中的应用取得显著进展,研究者们提出了多种算法和模型。然而,金融市场复杂多变,受经济趋势和地缘政治事件影响,传统模型难以适应。

图片

本文研究金融深度强化学习模型中时间窗口的优化,采用2D卷积神经网络(CNN)。提出将时间字段视为超参数,分析其对模型性能的影响。通过逐步扩展观察窗口(从两周到十二周)来评估不同时间窗口的效果。

在两个不同特征数据集上重复实验,结果一致。最终模型显著超越全球金融服务公司,如Global X Guru和Mirae Asset。

图片

摘要

本文研究金融深度强化学习模型中时间窗口的优化,采用2D卷积神经网络(CNN)。提出将时间字段视为超参数,分析其对模型性能的影响。通过逐步扩展观察窗口(从两周到十二周)来评估不同时间窗口的效果。实验分为两种设置:一是按公司分组特征,二是按类别排列特征。发现短时间窗口在未分组情况下效果最佳,而引入分组后,长时间窗口表现更佳。在两个不同特征数据集上重复实验,结果一致。最终模型显著超越全球金融服务公司,如Global X Guru和Mirae Asset。

简介

背景和动机

深度强化学习(DRL)结合深度学习和强化学习,提升了金融市场分析的投资策略。DRL能够有效识别历史市场数据中的复杂模式,超越传统定量模型的局限。金融市场复杂多变,受经济趋势和地缘政治事件影响,传统模型难以适应。DRL通过自主学习和持续适应,利用历史数据识别复杂关系和模式。

工作回顾

深度强化学习(DRL)在股票交易策略中的应用取得显著进展,研究者们提出了多种算法和模型,如Wang等的多模块DRL算法、Zhang等的基于近端策略优化的自动交易系统、Huang等的市场情绪数据整合、Liu等的多视角环境表示神经网络及Li等的门控循环单元自适应交易策略。Liu等开发的FinRL-Meta平台为训练和评估数据驱动的强化学习代理提供了全面工具,促进了金融市场的复杂模拟和算法比较。FinRL利用ABIDES-Gym等环境进行金融市场的离散事件模拟,增强了市场微观结构和基于代理建模的理解,并优化了模型训练过程。

之前的研究表明,卷积神经网络(CNN)作为DRL策略的效率和能力,且通过重新排列股票市场特征可提升模型性能。本研究旨在通过系统化的时间窗口选择方法,提升DRL模型在捕捉复杂市场动态方面的适应性和性能。

研究目的

研究目标:探讨在FinRL中改变CNN作为策略的时间窗口对模型性能的影响。

方法:从两周的短期窗口开始,每次增加两周,直到十二周,分析不同时间尺度对模型预测能力的影响。

重点:短期窗口有助于捕捉市场的即时变化和短期趋势;扩展窗口则整合更广泛的市场条件,捕捉长期趋势。

研究意义:通过对比不同时间窗口的模型表现,揭示市场行为模式,优化金融市场分析的时间粒度。

贡献:展示CNN在DRL环境中的有效性,提供关于时间动态在金融建模中作用的新见解。

相关工作

经典机器学习

经典机器学习方法在金融分析中主要依赖统计模型,线性回归广泛用于预测金融趋势和股价,相关研究见Tsay的《金融时间序列分析》。决策树被用于风险评估和信用评分,Kumar和Ravi的研究展示了其处理分类和连续变量的能力。然而,经典模型在处理金融数据的非线性和高维特性方面存在局限,Atsalakis和Valavanis的调查指出了需要更先进的方法以捕捉金融市场的复杂动态。

深度强化学习

深度强化学习(DRL)结合深度神经网络与强化学习,提升金融市场分析能力,能直接从大量非结构化市场数据中学习,识别复杂模式。卷积神经网络(CNN)在DRL中的应用,特别擅长处理高维序列数据,捕捉金融时间序列中的时空依赖性。Tsantekidis等人的研究展示了CNN在有限订单簿数据分析和股票价格预测中的有效性。DRL在金融应用中的成功源于其持续适应和学习的能力,适应金融市场的动态特性。目前对输入数据的时间范围如何影响CNN在金融DRL模型中的表现尚缺乏理解,本研究将系统探讨不同时间窗口和特征排列的影响。

方法

本研究整合了深度强化学习(DRL)、近端策略优化(PPO)和马尔可夫决策过程(MDP)框架。采用FinRL的集成方法,构建了一个能够应对金融市场复杂性的动态模型。DRL提供基础学习机制,MDP为不确定环境中的决策提供结构化方法,PPO确保高效稳定的策略优化。该模型能够实时学习、适应和优化交易策略。

深度强化学习(DRL)

深度强化学习(DRL)结合深度学习的模式识别能力与强化学习的决策框架,能够自主适应复杂的金融市场。DRL模型通过分析大量数据,识别潜在模式和趋势,动态调整策略,实现数据驱动的优化。DRL在处理高维金融数据和实时决策方面优于传统定量方法,能够应对市场波动。引入近端策略优化(PPO)提升学习过程的稳定性和效率。

马尔可夫决策过程(MDP)

马尔可夫决策过程(MDP)为决策制定提供数学框架,适用于随机和可控结果的情境,尤其在金融应用中。MDP模型化顺序决策过程,代理的每个行动影响未来状态和奖励。交易环境被表示为MDP,状态空间包含关键金融指标,行动空间包括各种交易行为,奖励函数反映财务收益或损失。该表示法使得深度强化学习(DRL)模型能够有效学习和优化交易策略,考虑金融市场的概率特性及决策对未来市场状态的影响。接下来将探讨特征提取在DRL代理中的作用,特别是通过卷积神经网络(CNN)。

MDP用于股票交易

交易市场可视为马尔可夫决策过程(MDP),包含状态、动作和奖励。

  • 状态s = [b, p, h, f]:包括余额b、价格p、股票持有量h和基本面指标f。

  • 动作a = [卖、买、持有]:对所有D只股票的操作,影响持有量h。

  • 奖励r(s, a, s′):执行动作a后,状态s转移到s′时的投资组合价值变化。

  • 策略π(s):在状态s下,动作a的概率分布。

  • 动作价值函数Qπ(s, a):在状态s下,依据策略π采取动作a的预期奖励。

主要目标是优化(最大化)奖励,选择PPO方法因其性能优于其他方法。

近端策略优化(PPO)

近端策略优化 (PPO) 是一种稳健的策略梯度优化方法,通过控制更新幅度来最小化成本函数,确保新旧策略之间的性能比较。PPO 使用剪切目标函数限制每次迭代的策略更新幅度,保持学习过程的稳定性,特别适用于金融市场的波动性。PPO 通过多次随机梯度上升优化策略,提高样本效率,适合数据稀缺且成本高的金融应用。在目标函数中加入熵项以鼓励探索,防止过早收敛到次优策略,平衡探索与利用,确保稳定的交易表现。接下来将讨论马尔可夫决策过程 (MDP) 在不确定性决策建模中的作用。

CNN用于特征提取

CNN集成于FinRL,通过专门的模拟股市交易环境进行,处理股票价格、交易量和财务比率等数据。CNN提取高层特征,供DRL代理做出交易决策,优化交易策略。先前研究表明,CNN在金融应用中的DRL中表现出色,能够捕捉复杂模式和市场行为。CNN作为特征提取器,动态学习并适应市场变化,提升决策能力。

图片

CNN模型架构

本研究的CNN架构旨在处理金融数据的多维特性,利用卷积层、批量归一化和ReLU激活函数增强特征提取和模式识别能力。CNN能够捕捉局部特征和时间依赖性,适应金融市场的动态变化,提升DRL代理的策略调整能力。网络包含两个卷积层,分别为8x4和4x2的卷积核,均采用2D批量归一化,随后通过全连接层整合特征进行决策。该架构能够捕捉短期价格波动和长期趋势,模型参数总数为6,763,552,输入和传递大小均较小。下一步是将CNN集成到针对金融市场分析的DRL框架中,开发模拟股票交易场景的专用环境,以便CNN动态学习市场数据。

图片

迭代窗口展开技术

进行了24个结构化实验,时间间隔为2到12周,分为6个阶段。每个时间段使用两种数据集:技术指标数据集和简单移动平均(SMA)数据集。数据集包含相同公司和时间段,但特征不同。分析分为两种场景:一种是重新排列特征,另一种是不重新排列。这种双路径策略在所有时间段中一致应用,评估CNN的性能和鲁棒性。

图片

初始两周窗口期

研究开始于两周的观察窗口,旨在捕捉短期市场趋势。初始阶段关键在于理解模型对市场变化的响应能力。两周窗口有助于模型在快速变化的金融交易环境中做出及时准确的预测。

双周扩张策略

逐步扩大观察窗口,定期整合更多历史数据。这种方法帮助模型吸收更广泛的市场信息,捕捉长期趋势。每两周的增量平衡了新数据与历史视角的结合。确保模型灵活应对市场变化和长期趋势。

最后12周窗口

12周观察期提供市场趋势和行为的全面视角。长期数据反映市场活动的多样性,有助于揭示长期趋势和周期模式。该阶段对评估模型在不同市场周期中的泛化能力和一致性表现至关重要。

重新排列特征法

本文研究特征重排在扩展时间窗口内的影响,通过重新组织输入数据张量的列,使相关特征相邻,以提升CNN识别数据模式的能力。这种特征排列反映金融指标之间的内在关系,旨在提高模型的准确性和泛化能力。在金融数据分析中,各数据类型(如股价、交易量、技术指标)之间的互动比单个数据点更为重要。该预处理策略促进高效学习,增强模型在多种金融数据集上的鲁棒性和适应性。

数据集

使用FinRL和FinRL Meta项目的两个数据集,确保方法的稳健性。该方法验证成功不是偶然。

SMA数据集

数据集来源于FinRL Meta项目,包含量化金融特征。包括市场基本数据:开盘价、最高价、最低价、收盘价和交易量。还包含工程特征:MACD、布林带、RSI、CCI、DX(30天)及30日和60日收盘简单移动平均线(SMA)。包含VIX和动荡度量,提供市场趋势和波动的全面视角。这些特征对卷积神经网络(CNN)模型在不同时间框架下的分析至关重要。

图片

特征向量:市场上的一个交易日

每个交易日的特征向量包含初始金额、29家公司的股价、持有的股份及8个量化特征,共261个元素。量化特征包括MACD、布林带、RSI 30、CCI 30、DX 30、30日和60日SMA。这些技术指标有助于识别市场趋势和动量,为CNN模型提供重要数据,支持精准预测和决策。

图片

技术指标数据集

技术指标数据集提供了更全面的财务绩效指标,包含多种财务比率。包含基本交易数据:开盘价、最高价、最低价、收盘价和交易量。关键财务比率包括:营业和净利润率、资产回报率、股本回报率、流动比率、速动比率、现金比率、周转率、债务比率、债务与股本比率、市场估值比率(PE、PB、股息收益率)。数据集有助于评估金融工具的财务健康和市场估值,支持CNN模型的市场分析。

图片

不同的特征向量

数据集的每日特征向量包含511个元素,提供全面的市场视角。组成部分包括:初始金额、30家公司的股票价格、持有的股票数量和450个财务比率(每家公司15个)。财务比率来源于公司财务报表,反映其财务表现。该数据集对CNN模型至关重要,有助于分析金融市场中的复杂模式和关联。

图片

结果

技术指标数据集的实验

在未重排特征的技术指标数据集中,2周观察窗口的累计奖励最高,达到155.89,显示出短期分析的优势;随着观察期延长,奖励逐渐下降,10周时降至104.58,表明信息过载影响CNN的预测能力。在重排特征的数据集中,10周观察窗口的累计奖励最高,达到121.59,显示出重排特征后模型对长时间窗口的利用能力增强,强调特征工程在金融数据分析中的重要性。

图片

总体而言,特征重排显著改善了模型在长时间观察窗口的表现,而未重排特征的数据集则更适合短期分析,强调数据结构对模型适应性的影响。

图片

在10周观察期内,模型的累计奖励为121.59,表现优于非重排数据的2周期。特征重排显著影响模型捕捉和预测市场趋势的效率。较长时间段的表现优于短期,强调数据排列和预处理在金融时间序列分析中的重要性。

图片

在SMA数据集上的实验

在未重排数据的SMA数据集中,2周观察窗口的累积奖励最高,达到184.05,显示出短期分析的有效性;8周和12周的奖励则下降至99.80和105.99,10周出现异常增至144.22,暗示数据可能存在复杂的周期性模式。

图片

重排数据后的分析显示,4周窗口的累积奖励最高为181.84,而2周窗口的奖励为117.14,表明数据重排显著影响模型对时间关系的利用。

图片

在重排数据中,6周和8周的奖励下降至101.04和90.77,但10周和12周有小幅回升,显示模型对不同时间段的特征解读存在波动,强调选择合适观察窗口的重要性。

SMA数据集中的最佳表现

在非重排的SMA数据集中,2周窗口的累计奖励最高为184.05,显示出短期内捕捉趋势的能力,随着观察期延长,累计奖励逐渐下降。在重排的SMA数据集中,4周窗口的累计奖励为181.84,表现最佳,显示出对较长时间窗口的利用能力。非重排数据的最佳表现为2周,重排数据的最佳表现为4周,强调了模型在不同时间窗口下的处理能力。

图片

整体表现最佳

SMA数据集在原始特征排列下,2周时间框架表现最佳,累计收益184.057,显示短期观察有效。特征重新排列后,4周时间框架表现最佳,累计收益181.84,表明短期观察仍然有效,但稍长时间框架更佳。技术指标数据集在原始序列下,2周观察窗口达到最高收益155.89,验证短期观察的有效性。数据序列重新排列后,10周时间框架表现最佳,累计收益121.59,表明CNN在结构化数据中更能识别复杂模式。数据结构对CNN在金融市场分析中的有效性有显著影响,强调灵活选择观察期和数据组织的重要性。

图片

应用

对冲基金的现状和GURU ETF的挑战

对冲基金在金融市场中发挥重要作用,采用复杂策略和灵活应对市场变化。他们通过深入分析市场趋势、行业动态、公司基本面、宏观经济因素和投资者情绪,结合量化模型和风险管理,进行多种投资策略。全球X Guru ETF(GURU)试图复制顶级对冲基金的投资策略,基于其季度报告进行股票选择。尽管GURU吸引投资者,但因报告延迟和无法实时调整,表现未能超越标准普尔500指数。

CNN-DRL的救援

CNN-DRL模型在处理高维序列数据和短时间窗口方面表现优异,适合快速变化的金融市场。该模型在对冲基金中的应用可提升投资决策效率,增强GURU的成本效益和表现。图表显示CNN-DRL模型的最佳表现者在增长上超越S&P 500和DIA ETF,并在市场下跌时表现出韧性。CNN-DRL模型可为对冲基金策略带来变革,帮助捕捉市场微妙变化,提高回报并降低风险。

图片

对于Global X Guru ETF,CNN-DRL模型可显著改善其策略,提升投资决策和价值增长。该模型在高频交易策略中具有重要意义,能帮助基金经理在快速变化的市场中做出灵活的数据驱动决策。CNN-DRL模型的适应性使其可广泛应用于不同金融工具和市场,成为投资组合管理的多功能工具。

讨论

结果解释

研究利用卷积神经网络(CNN)和深度强化学习(DRL)进行金融分析,强调时间精度在市场预测中的重要性。短期观察窗口(如两周)在捕捉市场动态方面表现优越,符合金融市场的快速波动特性。特征重组提升模型性能,表明特征工程对模型适应不同市场条件的显著影响。

理论意义

CNN模型通过窗口扩展技术强调了金融时间序列分析中的时间动态重要性,符合有效市场假说。模型适应市场“记忆”的能力对准确的金融预测至关重要。特征重组方法的有效性表明信息的组织和表示对学习过程同样重要,强调特征工程在金融模型中的作用。研究结果挑战了长观察窗口总是更优的传统观念,短窗口在非重组数据集中的优越表现表明近期市场信息的预测能力更强,符合市场效率理论。

总结和未来工作

本研究探讨了不同数据结构和观察窗口对卷积神经网络(CNN)在金融市场分析中的影响。数据的排列和时间框架选择对模型捕捉和预测市场动态的能力至关重要。当数据保持公司特征的连贯结构时,CNN更能识别复杂模式。在重新排列的数据集中,模型能够把握更长期的趋势和关系,这在短时间框架或未重新排列的数据中不明显。强调了在选择观察期和组织数据时需采取灵活和具体的方法,以提高CNN在金融市场分析中的效用和准确性。

限制和挑战

研究中使用卷积神经网络(CNN)进行金融市场分析,但面临计算能力不足的限制,需更多资源支持复杂模型和广泛测试。研究资金的增加将有助于获取更强大的计算基础设施,支持更广泛的实验和数据类型的整合。

未来研究可探索不同市场和资产类型,短期时间窗口及实时数据流对高频交易策略的影响。研究强调时间窗口选择的重要性,特征重排对最佳观察期的显著影响,并提供系统探索这些参数的方法框架。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值