“LLM4FTS: Enhancing Large Language Models for Financial Time Series Prediction”
金融时间序列预测面临挑战,主要由于市场噪声、非平稳动态和复杂的宏观经济相互依赖性,导致信号与噪声比低。传统机器学习方法(如自回归模型、梯度提升决策树和递归神经网络)在捕捉长期依赖性和非线性交互方面存在局限,且假设平稳性不适用于金融数据。
本研究提出了LLM4FTS框架,通过可学习的补丁分割和动态小波卷积模块增强LLM在时间序列建模中的能力。实验结果表明该框架在捕捉复杂市场模式和股票收益预测上表现优越,具有实际交易系统的应用潜力。将模型集成到证券交易平台的生产级算法交易基础设施中,实证分析显示与现有投资策略相比,累积收益显著提高,验证了其在真实市场条件下的有效性和经济可行性。
摘要
预测金融时间序列面临低信噪比和复杂时间模式的挑战,传统机器学习模型能力有限。大型语言模型(LLMs)因其扩展的参数空间,展现出建模复杂时间序列依赖关系的潜力。现有LLM方法多集中于固定长度的分析,忽视了市场数据的多尺度特征。
本研究提出了LLM4FTS框架,通过可学习的补丁分割和动态小波卷积模块增强LLM在时间序列建模中的能力。使用K-means++聚类和DTW距离识别市场数据中的尺度不变模式,进行自适应补丁分割以保持模式完整性。动态小波卷积模块模拟离散小波变换,灵活捕捉时频特征。实验结果表明该框架在捕捉复杂市场模式和股票收益预测上表现优越,具有实际交易系统的应用潜力。
简介
金融时间序列预测面临挑战,主要由于市场噪声、非平稳动态和复杂的宏观经济相互依赖性,导致信号与噪声比低。传统机器学习方法(如自回归模型、梯度提升决策树和递归神经网络)在捕捉长期依赖性和非线性交互方面存在局限,且假设平稳性不适用于金融数据。大语言模型(LLMs)利用自注意力机制,能够更好地捕捉长期序列依赖性,已在情感驱动的价格预测中展现出潜力。当前LLM在金融预测中的应用存在缺陷,如时间序列的固定长度分段方法忽视了市场的多尺度特性,导致重要上下文信息丢失。
本文提出LLM4FTS框架,旨在充分发挥大语言模型在金融时间序列预测中的潜力。集成离线尺度不变模式识别算法、可学习的补丁分割策略和动态小波卷积模块,以捕捉金融时间序列数据的多尺度特征和复杂时间依赖性。采用两阶段自监督训练策略:第一阶段在多市场金融时间序列数据上进行因果训练,第二阶段针对目标市场进行多分辨率预测的微调。动态小波卷积模块在训练过程中自适应更新小波变换基函数,实现多尺度的动态时频分析。
相关工作
金融预测方法
传统统计机器学习方法(如指数平滑、ARIMA)在金融预测中有效捕捉线性趋势。随着数据量增加和计算能力提升,机器学习方法(如支持向量机、XGBoost)成为主要金融预测工具,但易过拟合。深度学习方法(如RNN)能有效建模数据的序列依赖性,但处理长程依赖关系表现不佳。起源于图像生成领域的扩散模型(如FTS-Diffusion)用于分析和预测金融数据中的复杂模式。Transformer模型通过多头自注意力机制并行处理输入数据,显著减少训练时间,但在低信噪比情况下表现不佳。金融预测模型通常结合其他方法以降低噪声或增强信息。
LLMs用于金融预测
大语言模型(LLMs)在自然语言处理和视觉语言领域表现出色,能够利用内部和外部知识进行数据增强,为金融时间序列建模提供新可能。LLMs在金融时间序列预测中主要分为两类:
- 第一类通过市场反馈训练LLMs进行金融预测,如Open-LLaMA和Stocktime,但依赖高质量文本信息,收集困难,导致效果不佳。
- 第二类方法使用通用LLMs适应时间序列任务,生成提示或进行预训练和微调,但固定的补丁长度策略忽视了金融数据的多尺度复杂模式。
本文方法通过不同长度的补丁捕捉金融时间序列的多尺度特征,显著提高预测准确性,避免价格相关性干扰。
LLM4FTS
问题建模
股票预测问题的定义因投资策略而异,本研究采用横截面分析方法。该方法通过分析特定时点的数据来预测所有股票的未来收益。使用历史数据(如开盘价、收盘价、成交量)来预测次日收益。设定股票集合为 𝑋 = 𝑋 1 , 𝑋 2 , …, 𝑋𝑁,包含长度为 𝑇 的历史数据。
预测目标为交易日 𝑡 的收益 𝑟 𝑖 𝑡,模型参数为 Θ。预测值的标签定义为 𝑟 𝑡 𝑠 = (𝑝 𝑡 𝑠 +1 / 𝑝 𝑡 𝑠) - 1,𝑝 𝑡 𝑠 为股票的收盘价。
尺度不变模式识别
提出了一种基于金融时间序列的尺度不变性特征的模式识别方法,结合K-means聚类和动态时间规整(DTW)距离度量。将金融时间序列分割为不同长度的段落,并通过归一化处理,使同一聚类内的段落形状相似。采用DTW距离度量来处理不同长度段落之间的相似性,计算最小累积距离以实现非线性对齐。
初始化聚类中心时,采用FTS-Diffusion方法,随机选择段落并确保中心间的足够差异性,以提高聚类结果的鲁棒性。通过DTW算法计算段落间距离,优化分割方法,尽量保留段落内的模式信息。
下一个补丁预测预训练
提出利用下一补丁预测任务进行模型的持续预训练,采用动态补丁分割策略。该策略根据市场指数数据学习的分割参考,适应性地匹配和分割输入的历史序列。
基于市场指数数据的历史模式分割为股票数据的不同时间阶段提供指导,简化模型训练复杂性。将时间序列展平为𝑀个单变量序列,定义为𝑥 𝑡 𝑖,长度为𝐿。每个序列被动态分割为补丁序列𝑝 𝑡 𝑖,提取过程基于预定义的分段位置和滑动窗口策略。计算当前批次的起始和结束索引,调整全局分段位置以相对批次起始点进行补丁提取。
从全局段位置调整得到的段开始列表𝑆,取其与当前批次的开始位置的并集,去重并排序,得到最终的补丁起始位置列表𝑆𝑆。对于每个起始位置𝑠 ∈ 𝑆𝑆,若𝑠 + 𝐿𝑝 ≤ 𝐿,则从张量𝑥中提取长度为𝑝的补丁,形成大小为(𝐵, 𝑀, 𝐿𝑝)的补丁列表。将这些补丁沿新维度堆叠,形成形状为(𝐵, 𝑀, 𝑁𝑃, 𝐿𝑝)的张量。将𝑥的维度重排为(𝐵 × 𝑀, 𝑁𝑃, 𝑝),并与另一个输入层的输出拼接,得到形状为(𝐵 × 𝑀, 𝑁𝑃, 𝑑 model)的最终输入张量。该方法通过动态提取相关补丁,确保模型捕捉特定段落和数据的整体时间动态。
多分辨率预测微调
输入时间序列数据 X 𝑡 ∈ R𝑁 × 𝑇 × 𝐷 被重排为形状 (𝐵, 𝑀, 𝐿),其中 𝐵 为批量大小(固定为 1),𝑀 为特征数量,𝐿 为序列长度,确保模型独立处理每只股票的时间序列。
使用 Daubechies 小波的低通和高通滤波器初始化卷积层权重,进行小波变换的关键卷积操作定义为 x _ { i } = cos n1d ( x , Wi , stride , padding )。
逆小波变换通过上采样和卷积重构原始信号,保持小波滤波器的正交性以提高模型分析金融时间序列的能力。
目标函数实现了股票趋势预测任务,采用点对点回归和成对排名损失优化 LLM4FTS,以减少预测与实际收益之间的差异,同时保持高收益股票的相对顺序。
实验
实验设置
**数据集:**使用中国和美国股市数据,包括CSI 300、CSI 500、S&P 500和NASDAQ 100,指标包括开盘价、收盘价、高低价、交易量和换手率。进行异常值移除和归一化处理,计算每日收益并进行排名,数据分为训练集(2018-2022)、验证集(2023)和测试集(2024)。
**评估指标:**使用六个关键财务指标评估实验结果:
- 年化收益率(ARR):评估投资策略的整体收益。
- 年化波动率(AVoL):衡量投资风险,计算公式为AVoL = σ × 252。
- 最大回撤(MDD):反映潜在损失风险。
- 年化夏普比率(ASR):风险调整后的表现。
- 卡尔玛比率(CR):收益与最大回撤的关系。
- 信息比率(IR):超额收益与额外风险的比率。
**目标:**追求更高的ARR、ASR、CR和IR值,同时降低AVoL和MDD值。进行多次重复测试以确保结果的稳健性。
**基线模型:**为金融时间序列预测任务,采用15种基线方法进行比较。
- 深度学习模型:LSTM、ALSTM、GRU、Transformer。
- 专为股票价格预测设计的模型:AlphaStock、DeepPocket、DeepTrader(深度强化学习)和MASTER(深度神经网络)。
- 当前时间序列预测领域的SOTA方法:Dlinear(MLP)、iTransformer、PatchTST、Crossformer(基于Transformer架构)。
- 大模型时间序列预测的SOTA方法:GPT4TS、Time-LLM、aLLM4TS(不同实现方式的时间模型)。
股票时间序列预测
LLM4FTS在四个股票数据集上表现最佳,最高的ARR、ASR、CR和IR,显示出优越的盈利能力和风险管理能力。
传统深度学习模型(如LSTM、GRU、Transformer、ALSTM)在盈利性上表现较差,但在处理序列数据和长期依赖性方面表现平衡。
针对股票价格预测的模型(如AlphaStock、DeepPocket、DeepTrader、MASTER)利用强化学习技术,整体性能有所提升。
一些通用时间序列预测的先进方法(如Dlinear、iTransformer、PatchTST、Crossformer)在盈利性指标上与专门的股票预测模型相当。
最新的大型模型时间序列预测方法(如GPT4TS、Time-LLM、aLLM4TS)在大多数指标上超越了专门的股票预测模型,验证了使用深度Transformer模型进行股票价格预测的合理性。
消融分析
进行了全面的消融实验,评估各子模块对模型性能的影响。模型策略包括:离线学习模块、两阶段预训练策略、动态小波变换模块。使用原始GPT2模块时性能显著下降,表明两阶段预训练策略至关重要。添加任一子模块均提升预测准确性,显示各模块对性能的贡献。离线学习模块捕捉金融数据的长期依赖性,动态小波变换模块增强多尺度特征提取能力。所有模块结合使用时,模型表现最佳,强调策略和模块在金融时间序列预测中的重要性。研究强调保持金融数据的结构和信息完整性,并定制LLM以适应金融预测。
参数的敏感性
LLM4FTS方法在四个市场数据集上的参数敏感性结果显示,GPT层数对ARR和IR的影响:增加到6层时性能最佳,12层则导致性能下降,表明过多层数可能导致过拟合。
**动态分段长度的评估结果:**不使用动态分段时模型表现为标准GPT2,增加分段窗口提高ARR和IR,8-16的范围优于固定长度4,因其更灵活地捕捉历史模式。
部署
模型在EMoney Inc.的算法交易平台上实施,每月重训练,基于后市数据生成每日预测。根据预测,在市场开盘前30分钟内进行战略投资组合调整。采用CSI 300和CSI 500指数成分股的投资组合优化策略。模型的绝对收益(红色轨迹)持续超越基准(蓝色曲线),并生成正的超额收益(黄色曲线)。在一年评估期内,所有策略在不同市场条件下均表现优于基准,验证了模型提取市场模式和执行交易信号的有效性。
总结
LLM4FTS是一个新框架,旨在提升大语言模型在金融时间序列预测中的表现。该架构结合了尺度不变的模式识别模块和自适应动态补丁分割策略,使用可训练的小波卷积算子进行多分辨率时间依赖建模。通过分层特征提取,系统分析复杂的历史金融数据模式。在四个异质市场上进行了全面评估,结果显示该框架在预测准确性和泛化能力上优于现有基准。将模型集成到证券交易平台的生产级算法交易基础设施中,实证分析显示与现有投资策略相比,累积收益显著提高,验证了其在真实市场条件下的有效性和经济可行性。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈