“Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow”
量化投资通过提取市场价格、经济指标和金融文本等数据源的量化特征来构建投资组合。本文聚焦于利用金融新闻进行股票回报预测,以帮助构建投资组合。
论文地址:https://arxiv.org/pdf/2407.18103
摘要
本文探讨了通过金融新闻流对大型语言模型(LLMs)进行微调以预测股票回报,强调回报预测在量化投资中的重要性。模型包括文本表示和预测模块,比较了编码器和解码器模型的表现。
实验结果显示:
-
LLM的token级嵌入聚合表示能提升长短仓组合的回报预测性能。
-
在较大投资宇宙中,解码器模型表现更强;在小宇宙中无明显优劣。
-
LLM的文本表示在组合构建中优于传统情感评分。
研究表明LLM微调在回报预测和组合构建中具有潜力。
简介
量化投资通过提取市场价格、经济指标和金融文本等数据源的量化特征来构建投资组合。近年来,得益于自然语言处理技术的发展,金融新闻文本数据在定量投资中的应用显著增加。大型语言模型(LLMs)在语言理解和生成任务中表现优越,且可通过微调适应投资相关应用。
本文聚焦于利用金融新闻进行股票回报预测,以帮助构建投资组合。传统的金融新闻应用方法涉及多步骤的特征提取和验证过程,耗时且需额外数据。LLMs生成的文本数值表示可直接用于预测任务,本文探索通过微调LLMs实现新闻到回报的直接预测。
本文贡献如下:
-
设计基于LLM的回报预测模型,包含文本表示和预测模块。
-
比较编码器(DeBERTa)和解码器(Mistral, Llama3)LLMs在预测中的表现差异。
-
提出两种方法将LLM生成的token表示整合到预测模块中:瓶颈和聚合表示。
-
在真实金融新闻和不同投资领域进行实验,评估预测误差及基于回报预测构建的投资组合的回测表现。
相关工作
之前有多项研究利用金融文本数据进行预测,包括情感分析和文本表示学习。LLMs(如BERT、GPT-3)为量化投资中的文本数据预测提供了新方法。LLMs通过预训练学习语言模式,使用提示技术和微调技术来适应特定任务。一些研究将LLMs作为特征提取器,进行金融情感分析和新闻因素提取。本文关注微调LLMs,直接建模金融新闻文本与数值回报之间的关系,并评估不同LLMs的文本表示效果。
通过LLM从金融新闻学习股票投资组合
问题建模
投资组合选择基于定量标准,从股票集合U中选取子集,定期更新。设定r s,t+ℓ为股票s在时间t的ℓ步前回报,新闻文本x s,i用于预测。在时间t,使用时间窗口W内的新闻文本{ x s,i } i ∈T s,<t进行回报预测。将新闻文本串联为序列X s,<t,并通过文本表示模块g(·)和预测模块f(·)构建回报预测模型。模型训练使用数据实例{(r s,t+ℓ , X s,<t )},在测试时评估预测误差并进行股票选择。
长期投资组合选择预期上涨的股票,基于回报预测排名选取前K只股票。长短期投资组合同时选择预期上涨和下跌的股票,前K和后K股票均被纳入。
方法
LLMs分为三种类型:编码器(encoder-only)、解码器(decoder-only)和混合型(encoder-decoder),它们通过不同的预训练目标生成文本的高维向量表示。编码器LLMs使用掩码语言模型进行预训练,通过掩码某些令牌来预测缺失的令牌,表示包含左右上下文信息。解码器LLMs采用自回归的下一个令牌预测任务,表示基于已见令牌的信息。
Bottleneck表示通过在微调时压缩序列信息为单一向量,编码器LLMs的EOS令牌与掩码令牌一致,有助于有效总结序列特征。而解码器LLMs的最后令牌已自然总结整个序列,EOS令牌冗余。针对最后一个token的表示崩溃问题,提出了一种简单的替代Bottleneck表示的方法,即聚合所有token的表示,采用简单的平均方法。
对于编码器-only LLMs,使用聚合表示时,预训练和微调之间存在差异,因为每个token的表示基于上下文和自身,而非预训练中的mask token。对于解码器-only LLMs,平均所有表示可能导致对输入序列早期token的偏向,因为早期token在自回归设置中反复融入后续token的表示。实验使用了DeBERTa、Mistral-7B和Llama38B模型,损失函数为均方误差(MSE)。
实验
数据
数据来源于2003至2019年的公司级金融新闻,涵盖北美、欧洲和新兴市场的投资数据集。
设置
长期投资组合基于预测排名的第9个分位数构建,长短期投资组合则包括第9和第0分位数,所有股票均等权重。进行月度再平衡的回测,比较不同LLM的预测与基于情感的投资组合(FinBERT和FinVADER)。
评估指标
评估指标包括分位数RMSE、精度和收益,以及累计收益图和年化收益、夏普比率等性能统计。
结果
北美市场的结果显示,聚合表示模型在第9分位数的收益普遍高于Bottleneck模型,尽管RMSE可能较高。第0分位数的低收益对长短期组合有利,聚合模型在此分位数的表现不如Bottleneck模型,但整体长短期组合的表现有所改善。编码器和解码器LLM的比较显示,聚合表示在北美市场表现优于Bottleneck表示,欧洲和新兴市场的结果在附录中提供。
解码器模型Mistral和LLama在第9个分位数表现优异,而在第0个分位数表现较差,导致其在累积回报图中超越了长仓和长短仓组合。长仓组合在编码器和解码器LLM中表现相似,但长短仓组合中,DeBERTa的短仓拖累了整体表现,强调了有效选股的重要性。
所有基于预测的组合回报均高于市场平均水平。基于预测的组合在回报和夏普比率上优于传统情绪基础组合,且其回报曲线更平滑,短仓降低了组合波动性。预测模型更有效地捕捉文本信息,提升了未来股票表现的选股能力。
总结
本文探讨了利用金融新闻流进行回报预测,以优化量化投资组合,采用微调LLM直接建模新闻文本与股票未来回报的关系。
实验结果显示:
-
LLM的token级嵌入的聚合表示能提升投资组合表现。
-
在较大投资范围内,基于解码器LLM的预测模型表现更强;在小范围内则无明显赢家。
-
LLM文本表示的回报预测信号强于传统情绪评分。
未来研究可关注DeBERTa在大范围内表现不佳的原因及其在不同小范围内的表现差异,评估新提出的大型编码器LLM的效果。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓