基于Transformer的高频风险因子挖掘,实现30%投资回报率提升

论文 | HRFT: Mining High-Frequency Risk Factor Collections End-to-End via Transformer

一 本文概要

本文针对量化交易中高频风险因子(High-Frequency Risk Factors, HF风险因子)的公式化挖掘问题展开研究。传统风险因子大多基于手工设计或线性模型,对非线性和高频信息的捕捉存在不足。已有基于深度神经网络的模型虽能提取潜在风险结构,但难以直接输出可解释的闭合形式公式因子。本文方法将符号数学的表达式视为“句子”,将挖掘风险因子等同于一种“语言建模”任务,利用Transformer结构直接生成包含算子、特征和常数的完整公式化风险因子表达式。所提出的IRFT(Intraday Risk Factor Transformer)通过混合符号-数值词表、波兰表示法及BFGS优化对预测因子中的常数项进行精炼,以应对高维、非线性和大规模高频数据。实证显示,在中国和美国市场的高频数据上,IRFT相比现有符号回归基准方法能快速生成更高收益的风险因子组合,实现投资回报率提升约30%,并在推理效率上有数量级加速,为高频风险因子挖掘提供了有效的新路径。

二 背景知识

2.1 高频交易数据与波动预测基础

高频交易(High-Frequency Trading, HFT)数据是指以分钟级甚至秒级频率记录的股票交易数据,包括价格、成交量、成交额、最高最低价及加权平均价等特征。相较于日度数据,高频数据中噪声更复杂、局部模式更频繁,且具有微结构效应、买卖盘动态、闪电崩盘等因素导致传统线性因子模型较难有效刻画未来风险波动。

未来波动预测常以真实波动率(Realized Volatility, RV)为目标,如利用当日多时段价格的对数收益平方和衡量下一日潜在风险水平。传统因子主要源自线性或简单非线性特征(如动量、价值、流动性等),但高频情况下这些因子往往失灵。统计学模型(如PCA)或深度模型(如Deep Risk Model)虽能提取潜在因子,但输出多为潜变量,不具备清晰的封闭式公式结构,难以直接解释市场规律。因此,如能从HFT数据中自动生成可解释的闭合形式风险因子,将有助于理解市场微观结构和短期波动特性,为超短期投资策略的因子选取与组合管理提供更稳健的理论和实践基础。

2.2 符号回归与公式生成

符号回归(Symbolic Regression)旨在从数据中搜索数学表达式,以最优公式拟合输入与输出关系。传统符号回归多通过遗传编程(Genetic Programming, GP)从算子集合中迭代生成公式,但搜索空间庞大且收敛缓慢,易产生过拟合和冗长表达式。近年来,深度学习方法引入符号表达的序列化编码,尝试以神经网络模型从数据点对中直接生成表达式,使得训练和推理速度显著加快。

在符号回归中,算子集通常包含加减乘除、对数、指数、三角函数等单元算子。数据中的特征作为叶节点,算子作为内部节点,由此构建出的表达式树可转化为前缀(波兰)表示形式,适合序列化处理。当引入数值常量时,可将其分解为符号化的科学计数法表示,进一步统一编码并纳入训练和预测流程。

2.3 基于Transformer的符号表达建模

Transformer模型以自注意力机制处理序列信息,已在自然语言处理、代码生成及符号数学表达处理等任务中取得成效。将公式表达式看作“句子”,算子和特征记为“词汇”,从而可采用Transformer的编码器-解码器结构实现从高频特征数据到数学公式的映射。

与传统语言模型不同,此处侧重点不在大规模词汇语义,而在精确处理运算符号与常数。模型需在高频特征输入下捕捉潜在非线性关系,并直接输出匹配该关系的符号化公式。为了应对复杂性,研究者结合前缀表示、混合符号-数值词表,以及在推断后利用BFGS算法对预测出的常数进行精调,从而确保生成公式的精确性和稳定性。

三 本文方法

本文方法核心在于利用Transformer框架实现从高频交易数据直接生成可解释的公式化HF风险因子。本文提出IRFT模型,在训练与推理中进行端到端的符号表达式生成,并通过BFGS优化器对常数项进行二次优化。此方法的总体流程如下图所示:

3.1 方法总体框架

IRFT将HF特征输入与目标(未来真实波动率)组成训练样本,通过随机生成公式表达式树并对输入特征进行采样,构建一个可学习的数据集。接着使用Encoder-Decoder结构的Transformer模型对输入(特征值序列)编码,并输出相应的前缀符号表达式序列。

模型的输入为高频特征数据点集 ,其中 表示多维特征(如开高低收量价等),表示真实下一日的RV值。模型通过在训练中观察无数对 与符号表达关系 的样本,学习从特征分布到符号公式的映射。

3.2 嵌入器与Transformer结构

为降低数据维度和序列长度,研究者引入一个Embedder,将个输入点映射为一组较短的嵌入向量。具体而言,将组特征-目标对经过简单前馈网络(FFN)降维后输入Transformer编码器。这样可减轻Transformer在处理高维高频数据时的计算开销。

随后,Transformer采用序列到序列结构:Encoder对输入嵌入序列进行多头自注意力编码,Decoder则根据Encoder输出对目标表达式的符号序列进行预测。本文使用16头注意力和512维嵌入等结构,使模型在捕捉局部与全局特征模式方面表现优异。

3.3 符号与数值混合词表与前缀表示

在输出端,IRFT使用混合词表,将算子(如等)、特征符号()与常数一并编码。常数采用符号化科学计数法,拆分为符号位、尾数和指数三个token,确保在训练和推理时统一处理常量。

表达式采用前缀(波兰)表示,如可编码为[tan, mul, +, 97341, E-3, x]。通过这种方式,模型无需预定义骨架,能根据数据自动选择合适的算子组合与常量,从而灵活表达任意复杂的非线性关系。

3.4 训练过程与优化策略

训练过程中,采用Adam优化器最小化交叉熵损失,使模型最大化目标表达式序列的似然度。训练样本通过数据生成器随机产生,从而覆盖广泛的函数结构和特征范围。IRFT在初始训练时使用线性暖启动与递减学习率策略,并在验证集中达到满意精度后停止训练。

3.5 推理与后处理技巧

在推理阶段,IRFT可直接输入若干高频特征点并输出完整的公式因子表达式。然而,由于模型直接预测常数可能存在非线性优化困难,IRFT在生成公式后引入BFGS优化对预测常数进行二次寻优。BFGS以模型预测的常数为初值,通过数值优化精细调整,从而提高预测公式的拟合精度。

此外,IRFT在推断时采用缩放策略:训练阶段统一将特征标准化,而推断时对输入特征进行同样标准化,得到统一分布后再解码生成公式。这样能减少对数值范围的敏感性,并确保模型在不同市场环境下保持稳定性能。

若高频数据量过大(如),可采用bagging策略,将数据分块对模型多次推断,并结合多候选公式策略(K值解码)产生候选集合。从中筛选、去重并保留前个优质公式,再通过BFGS精炼,提高最终结果的准确性与多样性。

3.6 方法优势与特征

与传统符号回归(如GP)相比,IRFT在大规模高频数据场景有数量级推理加速,并能直接生成带常数的完整因子。与深度学习黑箱因子相比,IRFT输出可解释的显式公式,有助于理解市场波动机制。通过E2E策略和优化后处理,IRFT在复杂真实数据上也能找到高信号因子,为高频量化研究提供高效工具。

四 实验分析

本节介绍实验设计及结果分析,从不同维度验证IRFT的有效性和实用价值。实验数据来自中国和美国市场的高频行情数据,对比方法包括SRBench中的多种符号回归和机器学习基线,如GP框架的GPLEARN、深度符号回归方法DSR、以及ML模型(Lasso、RF、MLP等)。实验通过预测下一日RV衡量因子优劣,并选取代表性图表展示结果。

4.1 实验设置与评价指标

作者将HFT数据分为训练与测试集,以预测一天后波动率RV为目标。评价指标包括、、和,用于衡量因子表达式与未来波动的线性相关度、排序相关性及风险调整后收益能力。在推断时,将IRFT与DSR、GPLEARN、ML等进行对比,观察预测精度、公式长度、推理时间以及收益表现。为稳定结果,作者选取多天数据并多次重复实验。

4.2 实验结果分析

结果显示IRFT在预测性能与推理效率上均优于对照方法。在S&P500和HS300数据上,IRFT生成的公式因子实现了约30%的投资收益率提升,且推理时间比其他符号回归方法快数个数量级。

下面图表给出不同方法在推断性能与效率上的对比,IRFT不仅预测精度高,且推理稳定性强:

此外,扩大因子池容量时,IRFT能不断找到有用的新增因子。下图展示在不同因子池规模下的指标表现,IRFT在因子数量增加时仍能保持较高相关性与稳定性:

将高相关因子挑选用于投资组合优化,IRFT生成的因子在回测中表现出更高累积净值增长率,说明其有效捕捉了短期市场波动信号:

实验还针对中国市场进行测试,结果类似,美国与中国市场的高频数据均能通过IRFT获得优质因子组合。

五 总结展望

本文提出了IRFT,一种利用Transformer直接从高频交易数据挖掘公式型风险因子的端到端方法。该方法通过将风险因子挖掘转化为符号序列生成任务,成功生成包含运算符、特征与常数在内的闭合式数学表达式,并利用BFGS对常数进行精修,提升了对短期市场波动的拟合精度。实证结果显示,该方法不仅在预测性能上显著领先多种基线方法,而且在推断时间和稳定性方面有明显优势。同时,在多市场、多维特征与大规模数据情境下仍保持良好的泛化能力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值