Paper Reading | DishFT-GNN: 通过蒸馏优化图神经网络的股票预测能力，准确率提升5.4%

程序员笑武

于 2025-03-08 10:53:18 发布

阅读量897

点赞数 29

文章标签：神经网络人工智能深度学习 cnn 迁移学习机器学习

本文链接：https://blog.csdn.net/m0_59164304/article/details/146112567

版权

“ 股票趋势预测通过分析历史数据和市场指标来预测未来价格走势。随着机器学习的发展，图神经网络（GNNs）被用于股票预测，但现有GNN股票预测器改进有限，因其只关注历史时空依赖，忽视历史和未来模式的相关性。本文提出一种新的基于蒸馏的可感知未来的GNN框架（DishFT-GNN）用于股票趋势预测，通过训练教师模型和学生模型，教师模型学习捕捉历史和未来数据分布变化的相关性，为学生模型提供中间监督，使其学习未来感知的时空嵌入以进行准确预测。通过在两个真实世界数据集上的实验，验证了DishFT-GNN的性能。”

01.背景

股票市场是众多公司和投资者进行交易的金融投资平台，随着人工智能的发展，深度学习技术为投资者提供了更多通过股票投资增加财富的机会。基于深度学习的股票交易方法通常基于股票的未来动态可从其历史模式中揭示这一基本假设，如基于递归神经网络（RNN）及其变体（LSTM或GRU）的方法用于分析历史股票价格指标中的潜在时间动态。图神经网络（GNNs）构建股票图，纳入股票之间明确的关系（空间）依赖。然而，仅依赖明确关系会导致关系特征的聚合有偏差和不完整，因此有研究开始关注用基于深度学习的图表示方法探究隐含关系。此外，股票数据具有高度非平稳性，仅依靠历史价格指标的股票预测器应用到现在性能可能次优，这促使本文认为不仅历史股票数据特征分析很重要，历史和未来数据分布变化的相关性也很重要。

02.问题定义

将股票趋势预测定义为一个二元节点分类任务。动态股票图在交易日t可定义为

其中v=({v_{1}, v_{2},…, v_{N}}是N个股票的集合，X代表历史L个交易日的M个价格指标，A^{t}是表示股票之间关系的归一化关系矩阵。数学上，问题被表述为

其中g是基于GNN的模型，f是预测层，y是输出的二元变量集合，y_{n}^{tau=1)表示第n个股票将上涨，否则为0。

03.方法

3.1 总体架构

DishFT-GNN包含两个训练过程，即教师模型和学生模型的训练。教师模型先对历史股票图和未来趋势信息进行编码，生成历史时空和高级未来嵌入，然后通过一种新的基于注意力的多通道特征融合方法将这些嵌入整合，生成未来感知的时空表示，将其输入预测模块得到预测结果，与真实值比较优化教师模型。之后，教师模型的未来感知时空表示作为中间监督指导学生模型学习历史-未来分布相关性。

3.2 时空GNN模块

时空嵌入可计算为

其中ST可以是任何时空GNN模型，具体计算过程为先进行时间上的计算，再进行空间上的计算。

3.3 未来趋势编码器

是一个前馈网络（FNN），用于编码股票未来趋势，生成新的未来趋势嵌入

其中f_{n}^{[t: t+T)}代表v_{n}在接下来T个交易日的未来趋势。

3.4 未来感知教师模型训练

未来感知时空编码：教师模型利用未来趋势编码器将股票未来趋势编码为新的高级嵌入

再用时空GNN模块生成历史时空嵌入

为了对不同的历史-未来分布变化进行建模，提出一种新的基于注意力的多通道融合方法，将q_{n}^{t+}和P_{n}{t}整合为高级未来感知时空表示。具体通过多次向量-矩阵-向量（VMV）乘法生成多通道结果，每个通道代表历史和未来分布之间的潜在相关性

然后利用注意力机制评估每个通道的重要性，最后进行缩放点积注意力操作进行特征融合

预测和优化：得到h_{n}^{t+}后，将其输入预测模块

进行股票趋势预测，最后通过最小化交叉熵损失

学习参数。

3.5 基于蒸馏的学生模型训练

学生模型利用经过收敛训练的教师模型监督自身训练，分为两个阶段。首先，学生模型对历史股票图进行编码，生成历史时空表示

，然后将其输入与教师模型有相同参数的共享预测模块进行预测

为了基于h_{n}^{{t}推断未来模式，学生模型通过最小化h_{n}}{t}和h_{n}^{{t+}之间的蒸馏损失进行训练，最初使用均方误差L_{d}=MSE(h_{n}}{t}, h_{n}^{t+})，由于表示高度非线性，后来使用希尔伯特-施密特独立性准则（HSIC）

学生模型的最终目标是在基于历史股票数据生成未来模式的同时尽可能准确地预测股票趋势

04.实验

4.1 数据集

使用来自美国股票指数（标准普尔100和纳斯达克100）的两个数据集，时间跨度从2019年1月1日到2023年9月30日。将数据集分为85％用于训练，7.5％用于验证，7.5％用于测试。为确保数据完整性，消除有缺失数据的股票，分别从标准普尔100和纳斯达克100中选择了96和94只股票，并利用行业数据表示明确的股票关系。

4.2 实验设置

将DishFT-GNN与七种GNN股票预测方法（GCN、GAT、TGC、ADGAT、MGAR、VGNN和MDGNN）进行比较。使用准确率（ACC）和马修斯相关系数（MCC）作为评估指标。所有模型的参数使用Adam优化器在单个NVIDIA RTX 4070Ti GPU上进行训练，批量大小设置为64，每个实验独立重复五次并报告均值和标准差。

4.3 实验结果

性能比较：如表所示，DishFT - GNN显著提高了所有基线模型的预测性能，在大多数情况下准确率提高超过2％，在与MGAR集成时提高了5.41％，在两个数据集上MCC提高了82.3％到218％。此外，以经典GCN为骨干进行投资利润的回测比较，结果表明DishFT-GNN的利润差距随着时间逐渐扩大，进一步验证了其有效性。

消融研究：对GCN、GAT、VGNN和MDGNN进行消融研究，构建了DishFT-GNN w/o H（用MSE替换HSIC）和DishFT-GNN w/o F（用简单连接替换基于注意力的多通道特征融合模块）以及原始的DishFT-GNN。结果表明所有组件在ACC和MCC方面都对DishFT-GNN的性能有积极影响，HSIC有助于学生模型学习更广泛的非线性特征，基于注意力的多通道融合方法有效提高了预测性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述