整理：4篇论文让你了解基于 Transformer 的时间序列预测的最新成果

最新推荐文章于 2025-05-01 15:19:46 发布

mslion

最新推荐文章于 2025-05-01 15:19:46 发布

阅读量2.8k

点赞数 19

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/mslion/article/details/142774931

版权

Transformer 是一种基于注意力机制的深度学习模型，最初由 Vaswani 等人在 2017 年提出，并迅速在自然语言处理任务中取得了巨大的成功。它采用了全局自注意力机制，能够有效捕捉输入序列中的长距离依赖关系，与传统的循环神经网络（RNN）相比，Transformer 在并行计算和处理长序列数据方面具有显著优势，这使得 Transformer 成为各种序列建模任务中的首选架构之一。

随着 Transformer 模型的成功，研究人员逐渐开始探索将其应用于时间序列预测任务中。时间序列预测的核心在于通过分析过去的观测值，预测未来的趋势和行为。由于时间序列数据通常包含复杂的时序依赖关系和长期趋势，Transformer 的全局自注意力机制在捕捉这些特征时展现了独特的优势。然而，时间序列数据的特点，如序列长度、非线性动态等，也对传统的 Transformer 模型提出了挑战。因此，许多研究开始对 Transformer 进行改进，以更好地应对时间序列预测任务中的各种复杂情况。

接下来，我们将详细介绍四篇研究论文，这些论文在时间序列预测任务中对Transformer模型进行了改进，旨在提升其性能与适用性。

论文1

Generative Pretrained Hierarchical Transformer for Time Series Forecasting

方法：

近年来，研究人员致力于通过引入先进的网络架构和自监督预训练策略来提高时间序列预测的准确性。然而，现有的方法仍然存在两个关键缺陷。首先，这些方法通常依赖于单一数据集进行训练，导致模型的泛化能力受限，因为训练数据的规模有限。其次，广泛采用的一步生成框架需要定制化的预测头，忽略了输出序列中的时间依赖性，在不同的预测长度设置下也会导致训练成本增加。为了解决这些问题，我们提出了一种用于预测的全新生成预训练分层Transformer架构，称为GPHT。GPHT的设计有两个关键方面。一方面，我们主张在通道独立假设下构建混合数据集，用于预训练模型，该数据集由来自多种数据场景的不同数据集组成。这种方法显著扩展了训练数据的规模，使得我们的模型能够发现时间序列数据中的共性，并促进其在特定数据集上的迁移能力。另一方面，GPHT采用自回归预测方法，有效地建模输出序列中的时间依赖性。重要的是，不需要定制化的预测头，使得单个模型可以在任意预测长度设置下进行预测。我们在八个数据集上进行了充分的实验，比较了GPHT与主流自监督预训练模型和监督模型的表现。结果表明，GPHT在各种微调以及零/少样本学习设置下，在传统的长期预测任务中均优于基线模型，验证了预训练时间序列大模型的可行性。

创新点：

（1）我们探索了预训练一个单一的统一预测模型，该模型能够在不同场景下实现良好的泛化效果。我们在通道独立的假设下构建了预训练数据集，这种假设使得可以轻松创建多样化的大规模数据集，为预测模型在不同数据场景下的泛化能力奠定了基础。

（2）我们提出了GPHT，一种新颖的分层Transformer模型，该模型以自回归方式进行预测设计。此设计本质上有助于同时建模混合数据集中共有和特有的特性，确保在各种预测设置下的普适性。

（3）我们在8个广泛使用的基准数据集上进行了充分的实验，将我们提出的GPHT与主流的监督学习和预训练方法进行了比较。结果表明，我们的模型在各种微调以及零/少样本学习设置下均优于基线模型。

结果：

论文2

ShapeFormer: Shapelet Transformer for Multivariate Time Series Classification

方法：

多变量时间序列分类（MTSC）由于其在现实世界中的多样化应用，已经吸引了大量的研究关注。最近，利用Transformer进行MTSC的研究取得了最先进的性能。然而，现有的方法主要关注通用特征，这些方法虽然能够对数据进行全面的理解，但忽略了对学习每个类别的代表性特征至关重要的类别特定特征。这导致在处理不平衡数据集或具有相似整体模式但在细微的类别特定细节上不同的数据集时，性能不佳。本文提出了一种全新的Shapelet Transformer（ShapeFormer），它包含类别特定和通用Transformer模块，以同时捕捉这两种特征。在类别特定模块中，我们引入了一种发现方法，从训练集中提取每个类别的辨别性子序列（即shapelets）。然后，我们提出了一种Shapelet过滤器，学习这些shapelets与输入时间序列之间的差异特征。我们发现，对于每个shapelet的差异特征包含了重要的类别特定特征，因为它能够显著区分其所属类别与其他类别。在通用模块中，卷积滤波器用于提取包含区分所有类别信息的通用特征。在每个模块中，我们使用Transformer编码器来捕捉其特征之间的相关性。最终，这两个Transformer模块的结合使得我们的模型能够同时利用两种特征的优势，从而增强分类性能。我们在30个UEA MTSC数据集上的实验表明，ShapeFormer在与现有最先进方法的对比中实现了最高的准确率排名。

创新点：

（1）我们提出了ShapeFormer，它能够有效捕捉时间序列中的类别特定和通用判别特征。

（2）我们提出了用于多变量时间序列的离线Shapelet发现方法，可以高效地从训练集中提取shapelets。

（3）我们提出了Shapelet滤波器，它学习shapelets与输入时间序列之间的差异，这些差异包含了重要的类别特定特征。同时，shapelets在训练过程中动态优化，以有效地表示区分类别的信息。

（4）我们在所有30个UEA多变量时间序列数据集上进行了实验，结果显示ShapeFormer的准确率排名高于现有的最先进方法。

结果：

论文3

Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

方法：

多时间跨度预测通常包含复杂的输入组合，包括静态（即时间不变的）协变量、已知的未来输入以及仅在过去观察到的其他外生时间序列，但对于这些输入如何与目标变量相互作用没有任何先验信息。虽然已经提出了几种深度学习方法，但它们通常是“黑箱”模型，无法解释它们如何利用实际场景中存在的所有输入。在本文中，我们介绍了时间融合变换器（Temporal Fusion Transformer，TFT）——一种新型的基于注意力机制的架构，结合了高性能的多时间跨度预测和对时间动态的可解释性洞察。为了学习不同尺度的时间关系，TFT使用递归层进行局部处理，并使用可解释的自注意力层处理长期依赖。TFT利用专门的组件选择相关特征，并通过一系列门控层抑制不必要的组件，从而在各种场景中实现高性能。在多个现实世界的数据集上，我们展示了相对于现有基准的显著性能提升，并展示了TFT的三个实际可解释性应用案例。

创新点：

（1）静态协变量编码器，用于编码上下文向量，以供网络其他部分使用。

（2）门控机制和样本依赖的变量选择，旨在最小化无关输入的影响。

（3）序列到序列层，用于局部处理已知和观察到的输入。

（4）时间自注意力解码器，用于学习数据集中存在的长期依赖。这些专门组件的使用还促进了可解释性；特别是，我们展示了TFT如何支持三种有价值的可解释性应用场景：帮助用户识别(i) 对预测问题至关重要的全局变量，(ii) 持续的时间模式，以及 (iii) 重要事件。在多种实际数据集上，我们展示了TFT的实际应用效果，以及它所提供的洞察和好处。

结果：

论文4

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

方法：

许多现实世界的应用需要对长序列时间序列进行预测，例如电力消耗规划。长序列时间序列预测（LSTF）要求模型具有高预测能力，即能够高效地捕捉输出和输入之间精确的长期依赖关系。最近的研究表明，Transformer具有提高预测能力的潜力。然而，Transformer存在一些严重的问题，使其不能直接应用于LSTF，包括平方时间复杂度、高内存使用量以及编码器-解码器架构的固有限制。为了解决这些问题，我们设计了一种高效的基于Transformer的LSTF模型，命名为Informer，具有以下三个显著特征：（i）一种ProbSparse自注意力机制，它在时间复杂度和内存使用上实现了O(Llog L)，并且在序列依赖对齐方面具有可比的性能；（ii）自注意力提取突出主导注意力，通过减少级联层输入，能够高效处理极长输入序列；（iii）生成风格的解码器，虽然概念上简单，但在一次前向操作中预测长时间序列，而不是逐步进行，从而显著提高了长序列预测的推理速度。大量在四个大规模数据集上的实验表明，Informer显著优于现有方法，为LSTF问题提供了一种新的解决方案。

创新点：

（1）我们提出了Informer，成功提升了长序列时间序列预测（LSTF）中的预测能力，验证了Transformer类模型在捕捉长序列时间序列输出与输入之间的长期依赖关系方面的潜在价值。

（2）我们提出了ProbSparse自注意力机制，作为传统自注意力的高效替代方案。它在依赖对齐方面实现了O(Llog L)的时间复杂度和O(Llog L)的内存使用。

（3）我们提出了自注意力提取操作，在J层堆叠中优先考虑主导的注意力得分，将总空间复杂度显著减少到O((2 − ϵ)Llog L)，这有助于处理长序列输入。

（4）我们提出了生成风格的解码器，只需一步前向操作即可获得长序列输出，同时避免了推理阶段的累积误差传播。

结果：