DPA-STIFormer:使用Transformer进行股市预测

Double-Path Adaptive-correlation Spatial-Temporal Inverted Transformer for Stock Time Series Forecasting

时间序列数据在医疗、交通、天气和金融等领域广泛存在,历史数据可用于发现模式和预测未来变化。对于交通和气候预测,空间-时间预测方法(STGNNs)表现优异,但在股市预测中效果不佳,主要原因是忽视了不同时间序列之间的相互依赖。

本文提出双路径自适应相关空间-时间反转Transformer(DPA-STIFormer),通过特征变化建模节点。实验结果显示,DPA-STIFormer在四个股票市场数据集上表现优越,验证了其在揭示潜在时间相关模式方面的能力。

img

论文地址:https://arxiv.org/pdf/2409.15662

摘要

空间-时间图神经网络(STGNNs)在时间序列预测中表现良好,但在股票预测中效果不佳,因缺乏明确的空间关系。一些STGNNs通过时间序列学习空间关系,但往往不够全面。研究表明,使用特征变化作为标记建模时间序列能揭示不同信息。

本文提出双路径自适应相关空间-时间反转Transformer(DPA-STIFormer),通过特征变化建模节点。DPA-STIFormer引入双向自适应融合机制,分解节点编码为时间和特征表示,提取不同空间相关性。实验结果显示,DPA-STIFormer在四个股票市场数据集上表现优越,验证了其在揭示潜在时间相关模式方面的能力。

简介

时间序列数据在医疗、交通、天气和金融等领域广泛存在,历史数据可用于发现模式和预测未来变化。传统模型(如Box-Jenkins、Engle)和深度学习方法(如RNN、CNN、Transformer)已被应用于时间序列预测。对于交通和气候预测,空间-时间预测方法(STGNNs)表现优异,但在股市预测中效果不佳,主要原因是忽视了不同时间序列之间的相互依赖。Transformer方法在处理时间序列时,时间步作为token的使用导致性能不佳。STGNNs需要预定义的邻接关系,而股市中缺乏明确的关系,ST-Transformers虽不需预定义关系,但仍存在学习限制。最新研究表明,从特征和时间两个视角建模时间序列能更全面地反映节点间的影响。

本文提出一种新方法DPA-STIFormer,关注时间序列及其间的相关性,旨在改善股市预测效果。DPA-STIFormer是一种新型空间-时间Transformer模型,专注于股票市场的空间-时间预测,采用特征作为token,并引入重要性权重机制以更好地编码节点特征。DPABlock通过双路径自适应融合机制全面建模时间序列中的相关性,分离不同特征,并通过门控机制整合来自不同视角的信息。在4个股票数据集上进行的广泛实验表明,该方法能更有效地建模时间序列中的空间-时间相关性。

相关工作

时空图神经网络

近年来,时空数据整合引发了对时空图神经网络(STGCN)的关注,首个将图卷积网络(GCN)应用于时间序列预测。发展出多种卷积模型,如Graph Wave Net、MT-GNN、StemGNN、HSTGCN和GSTNet,利用门控机制提升特征捕捉能力。复杂卷积结构的研究,如ST-GDN和ST-ResNet,通过精巧设计实现性能提升。一些模型(如ARGCN、DCRNN、TGCN)结合了递归神经网络(RNN)与图神经网络(GNN)。随着Transformer的兴起,许多模型(如ASTGCN、STGNN、GMAN)将其架构或注意力机制融入时空建模。

时空Transformer

空间-时间建模的最新进展中,Transformer被整合以捕捉复杂的时空依赖关系。TFT和STTN等模型结合了时间和空间注意机制,提升了预测准确性和可解释性。自注意力机制有效处理时空数据的复杂性。

预备知识

空间-时间预测问题是利用历史数据和相关性邻接矩阵预测未来值的任务。输入数据为历史时间步长数据img和邻接矩阵img。每个样本有N 个节点,每个节点的时间序列Xi包含T个时间步和F个特征。邻接矩阵A表示节点间的相关性,a_ij表示节点i和节点j的相关程度。节点i的邻居集为img

方法

整体架构

模型由多个DPA-IEncoder编码块和一个DF-Decoder解码块组成,用于股票预测。DPA-IEncoder包括反向时间块、双路径自适应相关块和两个前馈神经网络,采用残差连接。反向时间编码器处理单个节点的时间序列,双路径自适应相关编码器同时聚合时间和特征维度的信息,学习邻近节点间的关系,并通过门控机制整合编码结果。DF-Decoder通过分解拟合展现出高效的股票预测能力。

反转时间块

传统Transformer时间序列预测方法将同一时间步的特征视为类似于自然语言处理中的词,但效果不佳,因时间序列数据的信息噪声比低,单个时间点的意义有限。本文提出将特征随时间的变化视为token,通过转置操作将时间序列转换为特征的时间序列。引入特征重要性权重,使用两层全连接网络计算权重并应用softmax,确保权重和为1。通过自注意力机制建模每个节点的时间序列,学习特征间的相关性,增强节点表示。应用层归一化和残差连接以提升编码效果,最后使用前馈神经网络进行处理。

img

img

img

img

img

img

双路自适应相关块

DPABlock设计用于自适应建模节点间的相关性,包含三个主要组件:双向自适应融合、邻居自适应相关性注意力和双路径门控机制。

img

双向自适应融合

节点特征为二维时间序列,简单平均法存在信息损失。

提出双向自适应信息融合方法,通过全连接层映射特征,利用互查询学习每个时间步的特征权重。

img

img

img

N邻居相关性注意力

节点表示从特征和时间两个角度捕捉不同特性。

近邻对节点有正面影响,远邻影响减弱,提出N邻居相关性注意力机制,通过掩码保留每个节点的前n个邻居。

img

𝑊𝐾 𝑇、𝐺、𝑊𝑄 𝑇、𝐺、𝑊𝑉 𝑇、𝐺为独立权重矩阵。𝑡𝑜𝑝𝑁(·)保留每行最大的𝑁个值,𝑁通常为节点数的10%。查询Q𝐺和键K𝐺通过映射节点表示𝐻到不同空间获得,值V𝐺则从原始时间序列𝑍𝐼映射,以保留完整信息。编码的两个方面为:

img

由于𝐻 𝑓 𝑒 𝑎 𝑡和𝐻 𝑡 𝑒 𝑚 𝑝均来自𝑍𝐼,值V𝐺 = 𝑊𝑉 𝑇,𝐺𝑍𝐼以节省计算资源。

双路径门控机制

在N邻域相关注意力中,同时从时间和特征角度建模空间关系,形成集成的时空编码。双路径门控机制(DPgate),自适应控制信息传输与融合。DPgate包含自通过门和互通过门,分别控制各路径的信息流动和融合比例。具体计算过程涉及多个门控和加权操作,最终输出融合后的特征表示。

img

𝑊𝑠,𝑓𝑒𝑎𝑡、𝑊𝑠,𝑡𝑒𝑚𝑝为自传递门的权重矩阵,𝑊𝑚𝑇为互传递门的权重矩阵。𝑡𝑎𝑛ℎ(·)和𝜎(·)为Tanh和Sigmoid激活函数。𝑔𝑓𝑒𝑎𝑡、𝑔𝑡𝑒𝑚𝑝为各路径的自传递门,𝑜𝑓𝑒𝑎𝑡、𝑜𝑡𝑒𝑚𝑝为通过自传递门传递的信息。𝑀为互传递门融合的信息。自传递门调整各路径的信息,互传递门结合两路径的信息以控制传递比例。

股票预测解码器和分解拟合

模型通过多个编码块提取和整合时空信息,形成 𝑀 ∈ R𝑁 × 𝐹 × 𝑑 𝑔。编码过程非顺序,采用多层感知机(MLP)直接映射到预测目标。通过加权和聚合特征,形成新的混合编码 𝑀 𝑚 ∈ R𝑁 × 𝑑 𝑔。对于股票预测,使用 MLP 拟合时间序列的均值和偏差,输出为均值与偏差之和。均值预测稳定,偏差预测敏感,增强了模型的鲁棒性和预测性能,防止过拟合。

img

模型通过多个编码块提取和整合时空信息,形成 𝑀 ∈ R𝑁 × 𝐹 × 𝑑 𝑔。编码过程非顺序,采用多层感知机(MLP)直接映射到预测目标。通过加权和聚合特征,形成新的混合编码 𝑀 𝑚 ∈ R𝑁 × 𝑑 𝑔。对于股票预测,使用 MLP 拟合时间序列的均值和偏差,输出为均值与偏差之和。均值预测稳定,偏差预测敏感,增强了模型的鲁棒性和预测性能,防止过拟合。

img

使用均方误差损失L_mse评估预测准确性。使用皮尔逊相关系数损失L_pearson衡量时间步内预测的相关性。最终损失函数形式为

img

实验

实验设置

实验数据集。 CSI500、CSI1000、NASDAQ、NYSE,详细信息见附录。

img

评估指标。 使用九个常用指标评估基线表现,包括信息系数(IC)、盈亏(PNL)、年回报(A_RET)、波动率(A_VOL)、最大回撤(MAXD)、夏普比率(SHARPE)、胜率(WINR)、盈亏比(PL)。

结果

img

DPA-STIFormer模型在四个数据集上表现最佳,超越10个基线模型(RNN、Transformer、STGNN)。相较于ASTGCN,DPA-STIFormer在IC、A_RET和WINR上分别提高30%、20%和3%。

模型有效捕捉节点时间序列间的相关性,DPABlock的有效性得到验证。与RNN相比,DPA-STIFormer在PNL和A_RET上平均提高30%以上,SHARPE在多个数据集上表现优异。相较于Transformer模型,DPA-STIFormer在IC、WINR和A_RET等指标上显著优于其表现,表明时间作为token的建模方法效果不佳。DPA-STIFormer使用特征作为token,通过双路径方法和门控机制整合节点相关性与时间序列信息。

消融分析

移除双路径结构或最终门控机制导致IC下降约15%,门控机制移除则下降约25%,表明信息融合不当会导致偏差学习。特征路径对结果影响更大,移除反向时间块显著降低IC和SHARPE,影响预测性能和稳定性。不使用重要性权重时,模型的预测能力和收益下降,增加风险。

img

超参数研究

层数(𝑛𝑙): 最佳为3层,少于3层易过拟合,多于3层因数据不足导致欠拟合。

注意力头数(𝑛ℎ): 最佳为4个头,过少无法捕捉关系,过多则易过拟合。

前馈神经网络维度(𝑑𝑚𝑜𝑑𝑒𝑙): 维度过小影响编码能力,过大则参数激增导致欠拟合。

img

可视化

**双路径可视化:**双路径自适应相关块的注意力计算结果显示,N邻居相关注意力矩阵稀疏,节点主要关注其最近的N个节点。特征路径和时间路径学习了不同的邻接关系,时间路径中某些主导节点影响其他节点,而特征路径的邻接关系更复杂,N邻居多样化。

img

均值-偏差预测可视化: 短期预测中均值分布密集,偏差分布稀疏,表明均值变化缓慢,适应时间序列变化。长期预测中均值范围显著变化,偏差仍集中,说明均值帮助适应时间序列的剧烈变化,避免偏差过大。

img

总结

本文提出了新颖的DPA-STIFormer模型。反转时间块通过将特征视为token并引入重要性权重,建模节点的时间序列。双路自适应相关块用于建模节点间的相关性。双向自适应融合同时从两个路径建模节点嵌入的时间和特征视角。双路径门控机制整合两个路径的编码。在四个真实股票数据集上的广泛实验和相关性可视化展示了该方法的优越性。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值