“FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading”
摘要
尽管大型语言模型(LLMs)在金融领域展现出强大的基础能力,但其在涉及多步骤决策和目标导向的交易场景中仍面临挑战。为此,本研究提出FLAG-TRADER架构,该框架创造性地融合了语言模型处理能力和基于梯度的强化学习策略优化方法。具体而言,通过参数高效策略对预训练语言模型进行领域适配,使其作为核心策略网络,在保持原有语言理解能力的同时适应金融场景特性。通过交易收益驱动的策略梯度优化机制,进一步提升模型在复杂交易决策等金融任务中的性能表现。最终通过大量实证分析验证了该架构的有效性提升。
01简介
金融算法交易面临多维度决策难题,包括跨市场信号整合与动态策略调整。传统强化学习在金融领域应用存在三重瓶颈:首先难以有效融合多模态市场信息,导致数据整合效率低下;其次金融数据分布的非平稳特性显著削弱了策略的跨市场适应能力;最后过度依赖人工设计的技术指标和复杂特征工程,易引入主观偏差并造成信息损耗,影响实时决策的可靠性。
大型语言模型(LLMs)在金融决策中展现出独特优势,其能天然处理时间序列与文本数据的联合建模,同时具备捕捉长周期依赖关系和市场情绪信号的能力。然而将LLMs应用于交易场景仍面临挑战,包括高昂的部署成本和对序列决策优化的适配性不足。
本文提出FLAG-TRADER框架,创新性地融合语言模型的语言处理能力与强化学习的奖励驱动优化机制。其核心贡献包括:1)设计参数高效的微调模块,实现市场数据与文本流的联合编码;2)构建混合强化学习组件,将环境奖励梯度纳入策略优化过程。通过部分微调语言模型作为策略网络主体,该框架在保持计算效率的同时有效保留预训练知识。
实验验证表明,FLAG-TRADER在多个金融交易任务中显著优于传统买入持有策略及LLM基线模型,尤其在累积收益和风险调整后收益(夏普比率)指标上表现突出。值得注意的是,仅1.35亿参数的开源LLM经过强化学习优化后,其交易性能超越更大规模的专有模型,充分证明了强化学习驱动的微调策略在优化语言模型交易决策中的有效性。
02相关工作
强化学习在金融决策中的应用。强化学习(RL)在金融领域显示出显著潜力,应用场景涵盖Q学习、动态资产配置、深度Q网络、SARSA算法、基于策略的资产组合优化及演员-评论家模型。研究突破主要依托开源框架FinRL,该框架提供了标准化的算法实现和可复现的基准测试。现有文献综述总结了方法创新和应用场景扩展。然而RL交易面临三大挑战:对海量训练数据的依赖、非平稳市场的适应性问题,以及实时整合多模态信息的复杂性。
大模型在金融决策中的突破。大型语言模型(LLMs)正重塑金融决策范式,混合架构如FinCon和TradingGPT通过语言理解能力增强交易代理。专业金融模型FIN BERT和FLANG经过领域适配预训练,在财报分析等任务中表现突出。最新进展包括机器阅读理解技术、开源金融LLMs开发、BloombergGPT的领域特异性标记化设计,以及InvestLM的数值推理能力。尽管LLM在情感分析和监管文件处理中取得实效,但其序列决策机制缺失、高计算成本(尤其强化学习场景)以及非平稳市场下的性能波动仍是主要瓶颈。
大模型代理在序列决策中的创新。结合LLM与智能体框架正推动金融决策范式革新。FIN MEM通过记忆增强架构构建投资组合管理代理,FIN AGENT采用分层结构实现高频交易策略。FIN ROBOT和FIN CON系统则聚焦多智能体协同与环境适应性。强化学习微调的LLM与视觉语言模型(VLM)在复杂任务中展现优势,如LLaRP将LLM作为可迁移策略,RL优化的VLM提升多步决策能力。然而实时部署面临计算资源消耗大、风险敏感型交易策略的市场适应性等持续挑战。
03问题建模
金融决策过程建模为具有有限时间范围的部分可观测马尔可夫决策过程(MDP),形式化表示为M = (S, A, T, R, γ)。状态空间S包含市场观测要素(股票价格P_t和金融新闻情绪N_t)及交易账户状态(可用现金C_t和持仓数量H_t)。动作集A定义了三个离散操作:卖出(-1)、持有(0)、买入(1)。状态转移遵循概率分布T(·|s_t, a_t),即s_{t+1} ∼ T(·|s_t, a_t),交易账户的现金和持仓量随动作选择动态调整。
奖励机制依据每日交易损益(PnL),通过夏普比率(SR_t)进行量化计算。
目标在于确定一个可行策略π,使其能够最大化累积折扣奖励的预期值。
通过状态s_t生成结构化文本提示,训练参数化的LLM代理(θ)以优化策略π。
04FLAG-TRADER
FLAG-TRADER融合了大型语言模型(LLM)与强化学习技术,应用于金融股票交易场景。其核心设计是将部分微调后的LLM作为策略网络,既继承预训练模型的通用知识,又针对性适配金融领域特性。通过文本形式的状态表征处理市场信息,能够有效解析动态的交易环境。仅对LLM参数中的特定子集进行训练,从而在保持原有知识的同时,实现领域适应性的优化。
输入提示词设计
流程首阶段构建高效提示模板(lang(s_t)),用于引导LLM生成交易决策。该提示包含四个核心要素:任务定义部分——明确金融交易目标及预期操作;操作范围说明——限定可选交易动作(卖出、持有、买入);状态编码模块——融合市场指标、历史价格序列与当前持仓状态;动作输出规范——生成可执行的量化交易指令。
这种结构化提示设计确保LLM能够全面解析输入信息,从而生成具有战略性的交易决策。
FLAG-TRADER架构
将LLM模型参数划分为两个模块:固定参数(θ_frozen)和开放参数(θ_train),以实现轻量化微调。这种分层设计既保持了预训练模型的语言理解基础,又允许在金融场景中进行针对性优化,显著降低计算资源消耗。系统采用策略与价值双网络架构,通过顶层参数的领域适配实现功能拓展,同时共享冻结层以维持核心知识的完整性。
策略网络架构
策略网络用于构建基于市场状态s的交易动作概率分布,其输出为非确定性决策策略。该网络包含三个核心模块:
1. 状态编码器:将市场状态数据(如价格、成交量、技术指标等)转换为结构化文本格式(例如"Price: Sp, Volume: v, RSI: r"),确保输入符合LLM处理要求。
LLM核心处理流程将结构化文本输入依次传递至模型主体,该主体包含两部分关键结构:
1) 基础冻结层:通过嵌入函数将文本状态lang(s)转换为初始语义向量(se = Embedding(lang(s))),该层参数完全冻结以保留预训练阶段积累的语言理解与逻辑推理能力。
2) 领域适配层:冻结层输出接入可优化参数模块,这些顶层结构针对金融决策场景进行专项微调,实现领域知识增强。
这种分层架构通过仅调整部分参数实现领域适配,在维持原始模型语言能力的同时,大幅减少训练资源消耗并保证性能稳定性。
策略输出模块:将处理后的特征向量输入策略预测头,输出交易动作空间A的概率分布,通过约束机制强制无效操作概率为零。
价值评估架构
价值网络作为强化学习框架的评估模块,负责预测当前状态s的长期收益期望值,为策略优化提供反馈信号。其架构与策略网络共用LLM基础层(冻结参数与部分可训练层),通过共享冻结层实现状态编码的一致性,同时减少参数冗余。文本状态经LLM处理层生成特征表示h₂后,输入独立的价值预测头,该头通过全连接层将特征映射为标量估值V(s),用于评估当前状态的潜在收益。这一设计在保持参数高效利用的同时,实现了策略与价值评估的协同优化。
在线策略梯度学习
FLAG-TRADER采用在线策略梯度算法同步训练策略与价值网络,持续提升决策性能。训练流程包含四个核心环节:环境状态捕获、动作采样、奖励反馈及模型参数优化,通过随机梯度下降(SGD)机制实现参数迭代。具体而言:
1. 策略损失函数LP:衡量策略网络输出概率分布与优势加权对数概率的匹配程度,通过SGD优化策略参数θ_P以最小化该损失;
2. 价值损失函数LV:约束价值网络预测值与目标回报的误差,通过SGD使价值参数θ_V收敛至时间差(TD)误差最小化。
对于共享的可训练LLM参数θ_train,采用联合优化策略,同步依据LP和LV梯度调整参数,确保底层表征与最优决策路径保持一致。
训练迭代遵循预设终止条件,同时引入近端策略优化(PPO)约束策略更新幅度,抑制过拟合风险并防止策略分布剧烈偏移。
05实验
实验设置
FLAG-TRADER模型通过对比实验进行性能验证,基线方案包括传统买入持有策略与基于LLM的INVESTORBENCH代理,实验对象为参数量1.35亿的FLAG-TRADER模型。
交易标的涵盖微软(MSFT)、强生(JNJ)、UVV、霍尼韦尔(HON)、特斯拉(TSLA)及比特币(BTC)六类资产。
评估指标采用复合收益率(CR)、夏普比率(SR)、年化波动率(AV)、最大回撤(MDD),最终结果取中位数统计值。
股票交易划分两个阶段:2020年7-9月为策略预热期,10月至2021年5月为性能验证期;比特币交易则以2023年2-4月为预热期,4月至11月作为测试窗口。
模型部署基于vllm框架,GPU资源配置与LLM规模呈正相关。
该模型通过近端策略优化(PPO)算法完成训练迭代。
评估指标
采用Hull(2007)提出的四个财务指标对LLM主干模型的投资绩效进行量化评估,具体包括累计回报(CR)、夏普比率(SR)、年化波动率(AV)和最大回撤(MDD)。
其中CR与SR为核心评估指标,分别反映长期收益潜力与风险调整后收益能力。
CR数值越高,表明策略表现越优。
SR数值越高,代表风险调整后的收益表现越佳。
AV通过日波动率(DV)的年度扩展计算得出,刻画收益波动幅度。
MDD衡量账户价值从历史峰值至最低点的最大跌幅,其数值越低则表明策略抗风险能力越强、稳定性越突出。
结果
FLAG-Trader在股票交易中显著超越基准代理,其强化学习训练机制展现出更强的环境适应与策略优化能力。
在深度强化学习框架中,LLM的策略生成虽受初始提示影响,但通过迭代训练逐渐收敛至稳定策略,降低对初始指令的依赖性。
实验表明,该模型(135M参数)在金融交易任务中超越更大规模模型,验证了高效训练策略可有效弥补模型规模不足带来的性能差距。
06限制和潜在风险
FLAG-Trader在决策性能上实现显著突破,但大规模市场数据集的微调过程面临高昂计算成本,未来需重点突破计算效率瓶颈。针对金融市场的动态波动与非平稳特性,后续研究应探索持续学习或元学习框架以提升长期环境适应能力。
当前依赖人工设计的结构化提示可能引入系统性偏差,需通过优化提示工程或引入检索增强机制来增强决策鲁棒性。此外,现有框架侧重收益优化而忽略风险控制,未来需构建风险敏感型目标函数,并融合动态资产配置策略实现收益-风险平衡。
07总结
本文提出了一种名为FLAG-TRADER的新型框架,创新性地融合大语言模型(LLMs)与强化学习(RL)技术应用于金融交易场景。该框架以LLMs为核心构建策略生成网络,通过自然语言表征实现决策智能化,并借助强化学习机制进行奖励驱动的策略优化。实验结果表明,通过结构化强化学习策略的优化,即使是参数量较小的LLM模型(如135M参数)也能在市场适应性上超越大型专有模型。
在股票交易任务测试中,FLAG-TRADER在累计回报、风险调整收益等关键指标上显著优于传统RL交易代理和基于LLM的基准方法(如INVESTORBENCH),验证了LLMs与强化学习结合在金融决策场景中的适应性与潜力。