多模态深度强化学习在投资组合优化中的应用

“Multimodal Deep Reinforcement Learning for Portfolio Optimization”

论文地址:https://arxiv.org/pdf/2412.17293

摘要

本文介绍了一种针对S&P100股票交易策略优化的深度强化学习框架,该框架结合了多模态数据,如历史股价、情感分析结果以及新闻主题的嵌入。通过融合SEC文档和新闻标题中的金融情绪信息,丰富了状态空间的表达,并调整了与投资组合表现相关的奖励机制。利用深度强化学习技术,此方法运用包括价格走势、情绪评分和新闻内容嵌入在内的综合状态张量,并采用卷积神经网络(CNN)和循环神经网络(RNN)等模型来提取特征。与传统的投资组合优化方式及前沿策略对比测试显示,本方法在提升投资组合绩效方面具有显著优势。实证研究证明,当整合多种数据来源并使用基于收益的奖励函数时,该算法能够超越常规基准,实现更优的投资决策。

简介

本文介绍了一种用于投资组合管理和优化的强化学习代理,它融合了股票价格信息与替代数据(例如SEC公告和新闻标题)。强化学习适用于实时环境,能够即时反馈和快速响应市场变化,从而提高决策效率。将替代数据编码入状态矩阵中,有助于代理更精准地调整投资组合中的资产权重。该模型基于马尔可夫决策过程构建,允许根据投资者的不同需求定制奖励函数。采用深度强化学习作为核心算法,通过深度神经网络来学习最优的投资策略,其目标是最大化预期的未来回报。文章特别强调了在状态空间表示、奖励函数设计以及深度学习模型训练体系上的优化工作。

01相关工作

论文[1] 通过分析最近的收益和市场指标,运用简单算法来设定投资组合权重,以优化差异化夏普比率,并将其结果与传统的均值-方差优化方法进行了对比。论文[2] 引入了强化学习技术,结合技术分析指标和股票间的协方差矩阵,利用3D卷积和张量分解技术提取特征,并通过深度确定性策略梯度(DDPG)算法训练神经网络,随后进行了回测评估。论文[3] 利用长短期记忆网络(LSTM)预测股价变动,结合新闻内容嵌入和分层注意力网络(HAN)增强状态空间表示,采用确定性策略梯度(DPG)进行模型训练,同时与多种基准投资组合进行比较,旨在处理环境的不确定性和奖励稀疏问题。论文[4] 研究了在强化学习模型中有效整合交易成本的方法,并分享了一个GitHub链接,提供了具体的实现代码。论文[5] 调查了新闻情绪作为指标的应用,使用不同的排序学习算法构建了一套表现优异的自动化交易系统。论文[6] 探索了多智能体强化学习的应用,通过引入惩罚机制减少智能体之间的相关性,从而生成一系列正交且高效的多元化投资组合。

02数据

为了构建和优化交易策略,我们将收集、存储并预处理价格数据及非传统数据。通过WRDS平台的CRSP数据库,我们计划下载2010年至2020年间S&P100指数成分股的基本价格信息,包括收盘价、最高价、最低价以及成交量等。同时,我们也会获取S&P500指数的市值加权与等权重版本的数据,作为性能比较的基准。强化学习代理将依赖这些历史股价数据来反映市场对于公司价值的认知。此外,我们的计划还包括利用新闻标题和SEC文件作为补充信息源,以丰富决策过程并加强投资组合管理策略。

SEC备案数据

SEC文件提供了关于公司财务状况和外部风险因素的定期更新,按照标准化格式提交。这些文档能够提供公司未来运营趋势的见解,而这些信息可能尚未完全反映在当前的股价之中。为了量化这些文件中的情感倾向,我们使用Loughran-McDonald情感词典来计算情感分数,并通过指数衰减的方法将这些分数向前推进至未来的日期。我们将从EDGAR数据库中下载S&P100成分股过去30年的10-K年度报告和10-Q季度报告,预计数据量约为115GB。接着,解析器将提取10-K报告中的第7项或7A项以及10-Q报告中的第2项内容,重点关注管理层讨论与分析(MD&A)部分,这部分内容详细论述了市场风险及其管理策略。

  • SEC数据处理和创建张量

为了从SEC文件的HTML文档中提取原始文本,我们首先使用正则表达式来解析并清理10-Q报告中的特定部分,如Item 1A(风险因素)、Item 7或7A(管理层讨论与分析),以及Item 2。然后,我们将构建一个数据框,该数据框将包含公司代码、文件提交日期、所提取的部分名称及其对应的文本内容。

在尝试利用FinBERT进行情感评分时,由于数据集的规模和格式带来的挑战,我们转向了一种调整后的方法来生成情感张量。具体来说,我们采用了Loughran-McDonald情感词典,从中识别出正面、负面和中性词汇,并计算这些词汇的比例以形成情感概率分布。

考虑到SEC文件是按年度或季度发布的,其间存在一定的报告日期间隔,我们应用了指数衰减技术来填补这些时间上的空隙。通过调优γ参数至大约0.8,确保了情感评分能够适当地随时间递减,反映了信息随着时间推移而逐渐失去其相关性的情况。

  • SEC文件数据集统计

数据集涵盖了99个S&P 100指数成分股的超过9000份SEC文件,其中我们使用了大约6100份作为分析子集。由于每年每家公司仅提交4份文件,我们采用了衰减前向填充的方法来处理缺失的日期数据。由于公司进出指数以及新公司的加入,导致各年间文件数量分布不均匀。情感评分的分布呈现出明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值