【AI大模型】股票价格预测精度增强，基于变分模态分解、PatchTST和自适应尺度加权层

本文链接：https://blog.csdn.net/2401_85779703/article/details/142526124

简介

股票价格指数是金融市场和经济健康的晴雨表，准确预测对投资决策至关重要。股票市场的高频交易和复杂行为使得预测具有挑战性，需开发稳定、准确的预测模型。研究表明，估值比率、数据驱动模型（如支持向量机）、股票价格比率和回报分散等因素均能增强股票价格的可预测性。

目前的股票价格预测方法可以分为两种：

**多变量预测：**利用宏观经济、政策、技术指标及历史股价等多种因素，适合长期趋势预测，但短期预测中变量过多可能引入噪声，影响模型性能。
**单变量预测：**仅使用历史股价数据，假设所有因素的影响已反映在价格变化中，更适合短期预测，且适合数据驱动模型提取高维特征。

本文聚焦于单一股票指数的价格预测。

股票价格预测分为传统统计方法和数据驱动方法。传统方法（如ARIMA、ARCH）对非平稳数据预测不可靠。数据驱动方法（如机器学习、深度学习）在处理非线性和高维数据上表现优越。机器学习方法如支持向量机（SVM）和决策树优于传统方法。深度学习模型（CNN、RNN、注意力机制）在金融预测中日益重要。Transformer模型通过自注意力机制捕捉长程依赖和复杂时间模式。PatchTST模型通过分段时间序列数据提高长期预测性能，适合股票价格预测。本研究采用PatchTST作为预测模型。

尽管Transformer模型在时间序列预测中表现出色，但直接从单一模型获得满意的预测准确性仍具挑战性。本文提出了结合机器学习/深度学习与分解-集成技术的复合预测框架，通过将时间序列数据分解为多个独立子序列进行预测。使用独立成分分析（ICA）、小波分解、经验模态分解（EMD）等方法进行时间序列分解，最近变分模态分解（VMD）显示出优越的分解和特征表示能力。

本文提出的VMD+PatchTST与自适应尺度加权层（ASWL）框架，通过VMD分解、PatchTST学习时间模式和ASWL优化资源分配，显著提高了股票价格预测的准确性。VMD+PatchTST与ASWL框架在多个股票指数数据集上表现优越，实验结果显示其在模型评估指标上超越其他方法。ASWL创新性地引入了自适应尺度加权，优化了多变量时间序列预测中的资源分配，显著降低了预测误差。

VMD+PatchTST与ASWL复合预测框架在SP500、DJI、SSEC和FTSE数据集上表现优异。MSE值分别为7.69、51.67、13.29和19.91；sMAPE值分别为0.42%、0.24%、0.46%和0.29%。本框架在预测准确性和泛化能力上优于以往模型。

方法

本文提出的框架包含三个部分：VMD分解模块、PatchTST预测模型和自适应尺度加权层。原始序列通过VMD模块分解为多个子序列。预测模型在训练数据集上学习，自适应尺度加权层负责训练过程中的损失修正。预测模型处理测试数据集，生成预测子序列，最终在集成模块中汇总得到最终预测序列。

变分模态分解

变分模态分解（VMD）是一种新颖的时频分析方法，能将多成分时间序列分解为多个单成分的幅度调制（AM）和频率调制（FM）信号。VMD克服了传统经验模态分解（EMD）中的端点效应和伪成分问题，且在复杂的非线性和非平稳时间序列中表现出更强的鲁棒性。VMD通过变分优化过程将原始时间序列S(t)分解为K个带宽受限的内在模态函数s_m(t)及其对应的中心频率v_m(t)。

带宽约束通过L2范数梯度的解调信号估计来估算。

引入二次惩罚项α和拉格朗日乘子λ，将重构约束问题转化为无约束问题。

采用交替方向乘子法（ADMM）求解，迭代应用相关方程直至满足终止条件，最终输出VMD算法的结果。

预测模型

Transformer模型在时间序列建模中的应用：Transformer基于注意力机制，适用于非线性和非平稳的金融数据预测，旨在实现风险分散和超额收益。

PatchTST模型的优势：

**Patching模块：**处理不同时间步的tokens，将其聚合为子序列，捕捉局部和全局语义信息。
**通道独立性：**每个输入token包含单一时间序列的信息，强调特征的重要性，减少过拟合。
**模型架构：**PatchTST包含四个主要组件：前向过程、Patching、Transformer编码器和实例归一化。
**前向过程：**将多变量时间序列分解为多个单变量时间序列，输入到通道独立的Transformer中进行预测。
**Patching模块：**将单变量时间序列分割为多个patches，保持信息完整性。
**Transformer编码器：**使用标准Transformer编码器提取输入信号的潜在表示，通过可学习的线性投影和位置编码保持时间顺序一致性。

自适应尺度加权层

VMD将时间序列S(t)分解为多个IMFs X1:L，每个IMF包含多尺度特征。预测模型从每个IMF学习，生成预测输出x ˆ L+1:L+T，最终预测通过求和得到x ˆ。数据归一化至0-1范围，导致缺乏尺度信息。多变量时间序列的总损失函数简单相加，忽视IMFs的频率和尺度差异。

引入自适应尺度加权层（ASWL），动态调整各子序列的权重，增强模型预测能力。ASWL通过线性层整合多尺度信息，赋予高低频成分不同的损失权重。最终预测结果通过元素乘法替代简单加法。

实验设置

数据

使用全球股指的日收盘价验证方法，数据来源于Wind数据库。选取四个股指：SP500、DJI、SSEC、FTSE，时间范围为2000年1月至2024年6月。每个股指的有效观察数分别为：6,123、6,145、5,920、5,893。数据集分为五个部分，每部分80%用于训练，20%用于测试。SP500指数的VMD分解显示，早期IMFs范围大，反映低频特征；后期IMFs范围小，反映高频特征。

**评估指标
**

使用均方误差（MSE）和对称平均绝对百分比误差（sMAPE）评估模型预测结果。

基线和模型参数

为了评估预测模型性能，选择CNN-LSTM、Informer、Autoformer、非平稳Transformer、Prophet、ARIMA作为基线。直接比较这些时间序列预测模型的表现。将变分模态分解（VMD）与深度预测模型结合，预测四个股票价格数据集，展示性能提升。

引入ASWL，比较各模型性能。

结果和分析

单模型预测表现

PatchTST在四个股票指数价格预测中，MSE和sMAPE表现优异，仅次于Non-stationary Transformer。SP500数据集sMAPE值：Informer 12.68%，Autoformer 3.68%，Non-stationary Transformer 1.12%，PatchTST 1.38%，CNN-LSTM 5.69%，Prophet 8.9%，ARIMA 40.38%。ARIMA因无法有效处理非平稳和非线性时间序列而被排除后续实验。CNN-LSTM虽表现不如Autoformer和Non-stationary Transformer，但仍可选。Transformer模型普遍具有强预测能力，De-stationary Attention和PatchTST的分块方法是其关键因素。直接建模序列仍面临准确性挑战。

VMD增强深度模型的性能

VMD增强的深度模型中，VMD+PatchTST在四个股票指数数据集上表现最佳，MSE和sMAPE显著低于单一预测模型，尤其在DJI数据集上表现突出。VMD有效地将复杂时间序列分解为不同频率的子序列，提升模型学习效果。VMD+CNN-LSTM和VMD+Autoformer表现相近，但不及VMD+PatchTST，后者在捕捉数据模式上更为有效。在IMF分解分析中，VMD+PatchTST在高频成分（IMF9）预测中表现优异，而VMD+Informer在低频成分（IMF0）上表现良好，但在高频成分上效果不佳。VMD+CNN-LSTM在低频成分预测中表现不佳，显示出捕捉长期趋势的不足。结果强调了模型选择和频率分解技术（如VMD）在非平稳金融时间序列预测中的重要性。

使用VMD、ASWL和深度模型增强预测

IMFs表示股票指数的低频到高频分解序列，其规模逐渐减小，影响MSE和sMAPE值。引入ASWL模块以在模型训练中纳入IMFs的原始规模信息。VMD+PatchTST与ASWL在四个股票指数数据集上表现优异，MSE分别减少42.28%、23.63%、25.60%和13.89%。VMD+PatchTST与ASWL在所有数据集中MSE和sMAPE最低，优于VMD+Informer和VMD+Autoformer。VMD+Non-stationary Transformer与ASWL表现良好，但不及VMD+PatchTST。

VMD+深度模型结合ASWL框架在IMFs分析中表现出色，尤其在低频IMFs（IMF0-2）上，MSE和sMAPE显著降低。在DJI数据集中，VMD+PatchTST与ASWL的MSE分别减少38.26%、35.55%和14.20%。ASWL有效捕捉IMF的尺度信息，数据规模增加时，预测性能提升更明显。VMD+PatchTST在高频IMFs预测中也表现优异，FTSE数据集IMF9的MSE为1.3338，sMAPE为40.62%。

VMD+PatchTST与ASWL模型在SP500数据集的预测表现良好，特别是在IMFs 1-3中准确性突出。IMFs 1-3捕捉了主要的中频成分，有助于准确预测股票价格的主要趋势。ASWL的引入改善了高频IMFs（如IMF9）的预测性能，减少了预测波动和误差。ASWL通过自适应加权机制优化了不同频率成分对最终预测的影响，提高了短期波动和噪声的处理能力。

预测结果总结

股票价格序列的非平稳性和复杂性使得单一模型难以准确预测。PatchTST模型通过其拼接机制在股票指数价格预测中表现优越。VMD与深度模型结合显著降低股票指数价格预测误差，VMD+PatchTST效果最佳。ASWL模块通过引入尺度信息进一步提升预测性能，减少低频子序列的误差并降低高频子序列的波动。

总结

本文提出了一种新颖的股票指数价格预测框架，结合变分模态分解（VMD）、PatchTST和自适应尺度加权层（ASWL）。首先使用VMD将原始价格序列分解为多个具有可管理特征的IMF。对每个IMF应用PatchTST以有效捕捉和建模时间模式。ASWL模块用于整合尺度信息，提升预测性能。最终预测通过聚合所有IMF的结果获得。方法的新颖性在于VMD与PatchTST和ASWL的结合，充分利用了分解、时间模式建模和自适应加权的优势。

实验和比较分析验证了VMD-PatchTST-ASWL框架的有效性和效率。

未来工作将扩展到其他多变量时间序列预测任务，如能源价格预测、负荷预测和风速预测，以验证模型的多样性和鲁棒性。

2024最新全套大模型学习资料：大模型学习成长路线、书籍&学习文档、视频教程、项目实战、面试题汇总等，免费分享~

有需要的同学可以通过【微信扫描下方二维码】，即可免费领取！！！

一、大模型学习成长路线

学习新技能，方向至关重要。正确的学习路线图可以为你节省时间，少走弯路；方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

二、大模型书籍&学习文档

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

四、大模型实战项目

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

五、大模型面试题汇总

面试，不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

上述的资料已经全部打包好，有需要这份全套的大模型学习资料的同学，可以通过【微信扫描下方二维码】，免费领取！！！