Transformers in Time Series: A Survey

最新推荐文章于 2024-10-08 09:52:34 发布

图学习小组

最新推荐文章于 2024-10-08 09:52:34 发布

阅读量204

点赞数

文章标签：人工智能

原文链接：https://arxiv.org/abs/2202.07125

版权

摘要

Transformer 在自然语言处理和计算机视觉的许多任务中都取得了卓越的性能，这也引发了时间序列社区的极大兴趣。在 Transformer 的众多优势中，捕获长程依赖关系(long-range dependencies)和相互作用(interactions)的能力对时间序列建模特别有吸引力，从而在各种时间序列应用中取得了令人振奋的进展。本文系统地回顾了用于时间序列建模的 Transformer 方案，强调了它们的优点和局限性。并从两个角度研究了时间序列Transformer的发展。从网络结构的角度，本文总结了为适应时间序列分析的挑战而对Transformer所做的调整和修改。从应用的角度来看，本文根据预测、异常检测和分类等常见任务对时间序列 Transformer 进行分类。本文进行了稳健分析、模型大小分析和季节性趋势分解分析，以研究Transformer在时间序列中的表现。最后，本文讨论并提出了未来的方向。

1.介绍

最近由于Transformer在深度学习方面的创新和其在自然语言处理（NLP）、计算机视觉（CV）和语音处理方面的出色表现，引起了人们的极大兴趣。在过去的几年里，为了显著提高各种任务的最先进性能，已经提出了许多Transformer变体。有相当多来自不同方面的文献综述，例如 NLP 应用、CV 应用和高效Transformer。

Transformer对序列数据中的长程依赖关系和交互作用表现出出色的建模能力，因此对时间序列建模领域很有吸引力。为了应对时间序列建模中的特殊挑战，许多 Transformer 变体已经被提出，并已成功应用于各种时间序列任务，例如预测，异常检测和分类。具体来说，季节性（seasonality）或周期性是时间序列的一个重要特征。如何有效地模拟长程和短程时间依赖性并同时捕获季节性仍然是一个挑战。本文注意到，虽然已经存在一些与时间序列深度学习相关的研究，包括预测，分类，异常检测和数据增强，但没有对Transformer的时间序列进行全面深入的研究。由于时间序列的 Transformer 是深度学习中的一门新兴课题，因此对时间序列 Transformer 进行系统而全面的研究将使时间序列社区受益匪浅。

本文旨在通过总结时间序列Transformer的主要发展来填补这一空白。本文首先对原版Transformer进行了简要介绍，然后从网络修改和时间序列Transformer的应用领域两个角度提出了一种新的分类法。对于网络修改，本文讨论了 Transformer的低级（即模块）和高级（即架构）的改进，旨在优化时间序列建模的性能。对于应用，本文分析和总结了 Transformers 的常用时间序列任务，包括预测、异常检测和分类。对于每个时间序列 Transformer，本文分析了它的见解、优势和局限性。为了提供关于如何有效使用Transformers进行时间序列建模的实用指南，本文进行了广泛的实证研究，研究了时间序列建模的多个方面，包括鲁棒性分析、模型大小分析和季节性趋势分解分析。我们通过讨论时间序列 Transformer 的可能未来方向来结束这项工作，包括时间序列 Transformer、Transformer 和 GNN 的时间序列的归纳偏置，预训练的时间序列Transformer，具有架构级别变体的 Transformer，以及用于时间序列的带有 NAS 的 Transformer。据我们所知，这是第一部全面、系统地回顾Transformers在时间序列数据建模方面的关键发展的工作。我们希望这项调查能够激发人们对时间序列Transformer的进一步研究兴趣。

2 Transformer的预备知识

2.1 Vanilla Transformer

Vanilla Transformer遵循最具竞争力的神经序列模型，具有编码器-解码器结构。编码器和解码器都由多个相同的块组成。每个编码器模块由一个多头自注意力模块和一个位置前馈网络组成，而每个解码器模块在多头自注意力模块和位置前馈网络之间插入交叉注意力模型。

2.2 输入编码和位置编码

与 LSTM 或 RNN 不同，原版Transformer没有重现(recurrence)。相反，它利用输入嵌入中添加的位置编码来对序列信息进行建模。本文在下面总结了一些位置编码。

绝对位置编码

在 vanilla Transformer 中，对于每个位置索引 t，编码向量由下式给出

其中 ωi 是每个维度的人工选定的频率。另一种方法是为每个位置学习一组更灵活的位置嵌入。

相对位置编码

根据输入元素之间的成对位置关系比元素位置更有利的直觉，提出了相对位置编码方法。例如，其中一种方法是将可学习的相对位置嵌入添加到注意力机制的关键中。

除了绝对和相对位置编码外，还有一些使用混合位置编码的方法将它们组合在一起。通常，位置编码被添加到令牌嵌入中并馈送到Transformer。

2.3 多头注意力

使用查询键值（QKV）模型，Transformer使用的缩放点积注意力由下式给出

其中查询queries，键keys,值values，N、M 表示查询和键（或值）的长度，，表示键（或查询）和值的维度。Transformer使用了用 H 组不同的学习投影而不是单个注意力函数的多头注意力，具体公式为

2.4 前馈和残差网络

前馈网络是一个全连接的模块，如下

其中是上一层的输出，，，，是可训练的参数。在更深的模块中，每个模块周围插入一个残差连接模块，然后插入一个层归一化模块。模块公式如下

其中，表示自注意力模块，表示图层归一化操作。

3 时间序列中Transformer的分类

为了总结现有的时间序列Transformer，本文从网络修改和应用领域的角度提出了一个分类法，如图1所示。基于分类法，我们系统地回顾了现有的时间序列Transformer。从网络修改的角度，我们总结了Transformer在模块级和架构级所做的更改，以适应时间序列建模中的特殊挑战。从应用的角度来看，我们根据时间序列 Transformer 的应用任务进行分类，包括预测、异常检测和分类。在以下两节中，我们将从这两个角度深入研究现有的时间序列Transformer。

图 1：从网络修改和应用领域的角度对用于时间序列建模的 Transformer 进行分类。

4 时间序列的网络修改

4.1 位置编码

由于时间序列的顺序很重要，因此将输入时间序列的位置编码到 Transformer 中非常重要。一种常见的设计是首先将位置信息编码为向量，然后将它们作为附加输入与输入时间序列一起注入模型。使用 Transformer 对时间序列进行建模时如何获得这些向量可以分为三大类。

Vanilla位置编码 一些作品只是简单地介绍了《Attention is all you need》中使用的Vanilla位置编码（第 2.2 节），然后将其添加到输入时间序列嵌入中并馈送到 Transformer。尽管这种方法可以从时间序列中提取一些位置信息，但它们无法充分利用时间序列数据的重要特征。

可学习的位置编码 由于普通的位置编码是人工选择的，表现力和适应性较差，一些研究发现，从时间序列数据中学习适当的位置嵌入会更有效。与固定的普通位置编码相比，学习的嵌入更灵活，可以适应特定的任务。Zerveas 等人在 Transformer 中引入了一个嵌入层，该层与其他模型参数一起学习每个位置索引的嵌入向量。Lim 使用 LSTM 网络对位置嵌入进行编码，这可以更好地利用时间序列中的顺序排序信息。

时间戳编码 在实际场景中对时间序列进行建模时，通常可以访问时间戳信息，包括日历时间戳（例如，秒、分钟、小时、周、月和年）和特殊时间戳（例如，假期和事件）。这些时间戳在实际应用中提供了相当多的信息，但在原版Transformer 中几乎没有利用。为了缓解这个问题，Informer建议通过使用可学习的嵌入层将时间戳编码为额外的位置编码。Autoformer和 FEDformer 中使用了类似的时间戳编码方案。

4.2 注意力模块

Transformer 的核心是自注意力模块。它可以被看作是一个完全连接的层，其权重是根据输入模式的成对相似性动态生成的。因此，它与全连接层共享相同的最大路径长度，但参数数量要少得多，因此适用于对长期依赖关系进行建模。

正如本文在上一节中所示，原版Transformer中的自注意力模块的时间和内存复杂度为O(N2)（N是输入时间序列长度），这成为处理长序列时的计算瓶颈。提出了许多高效的Transformer来降低二次复杂度，可以分为两大类：（1）在注意力机制中明确引入稀疏性偏差，如LogTrans 和Pyraformer ;（2）探索自注意力矩阵的低秩特性以加快计算速度，如Informer和FEDformer。表 1 显示了应用于时间序列建模的常用 Transformer 的时间和内存复杂度，有关这些模型的更多详细信息将在第 5 节中讨论。

表1：具有不同注意力模块的流行时间序列Transformers的复杂度比较

4.3 基于架构的注意力创新

为了适应 Transformer 中的单个模块进行时间序列建模，许多工作都在寻求在架构层面对Transformer 进行改造。考虑到时间序列的多分辨率(multi-resolution)，最近的工作将分层架构引入了 Transformer。Informer在注意力块之间插入步幅为 2 的最大池化层，将序列下采样到其半切片中。Pyraformer 设计了一种基于C元树的注意力机制，其中最精细尺度(scale)的节点对应于原始时间序列，而较粗尺度的节点代表较低分辨率的序列。Pyraformer开发了尺度内和尺度间注意力，以便更好地捕捉不同分辨率下的时间依赖关系。除了能够以不同的多分辨率集成信息外，分层架构还具有高效计算的优势，特别是对于长时间序列。

5 时序Transformer的应用

在本节中，本文将回顾 Transformer 在重要时间序列任务中的应用，包括预测、异常检测和分类。

5.1 预测中的Transformer

本小节中，本文研究了三种常见的预测任务类型，即时间序列预测、时空预测和事件预测。

时间序列预测

近年来，已经做了很多工作来设计用于时间序列预测任务的新 Transformer 变体。模块级和架构级变体是两大类，前者包括大多数最新作品。

模块级变体 在用于时间序列预测的模块级变体中，它们的主要架构类似于原版的 Transformer，但略有变化。研究人员引入了各种时间序列归纳偏置来设计新模块。以下总结的工作包括三种不同的类型：设计新的注意力模块，探索对时间序列数据进行归一化的创新方法，以及利用标记输入的偏差，如图 2 所示。模块级Transformer的第一种变体是设计新的注意力模块，这是占比最大的类别。这里本文先介绍六个经典模型：LogTrans、Informer、AST 、Pyraformer 、Quatformer 和 FEDformer，它们都利用稀疏归纳偏置或低秩近似来消除噪声并实现低阶计算复杂度。LogTrans 通过采用因果卷积在自注意力层中生成查询和键来提出卷积自注意力。它在自注意力模型中引入了稀疏偏置（对数稀疏掩码），将计算复杂度从 O(N2) 降低到 O(N log N)。Informer没有使用显式稀疏偏差，而是根据查询和关键相似性选择主导查询，从而在计算复杂性方面实现了与LogTrans类似的改进。它还设计了一种生成式解码器，可直接生成长期预测，从而避免使用一个前瞻性预测进行长期预测的累积误差。AST使用生成对抗编码器框架来训练稀疏 Transformer 模型进行时间序列预测。结果表明，对抗性训练可以通过直接塑造网络的输出分布来改善时间序列预测，从而避免通过提前一步推理产生误差累积。Pyraformer设计了一个分层金字塔式注意力模块，其中二叉树遵循路径，以线性时间和记忆复杂性捕获不同范围的时间依赖关系。FEDformer在频域中应用了傅里叶变换和小波变换的注意力操作。它通过随机选择固定大小的频率子集来实现线性复杂度。需要注意的是，由于Autoformer和FEDformer的成功，在时序建模中探索频域中的自注意力机制引起了社会的更多关注。Quatformer 提出了基于四元数的学习旋转注意力 (LRA)，该四元数引入了可学习的周期和阶段信息来描述复杂的周期模式。此外，它使用全局存储器解耦 LRA 以实现线性复杂度。

以下三篇论文重点构建模型的显式解释能力，顺应可解释人工智能（XAI）的趋势。TFT设计了一个具有静态协变量编码器、门控特征选择和时间自注意力解码器的多视野预测模型。它从各种协变量中编码和选择有用的信息来执行预测。它还通过合并全局、时间依赖关系和事件来保留可解释性。ProTran和 SSDNet将 Transformer 与状态空间模型相结合，以提供概率预测。ProTran 设计了一种基于变分推理的生成建模和推理程序。SSDNet 首先使用 Transformer 学习 SSM 的时间模式并估计参数，然后应用 SSM 进行季节性趋势分解并保持可解释能力。

模块级 Transformer 的第二种变体是归一化时间序列数据的方法。非稳态Transformer是唯一主要关注修改归一化机制的工作，如图 2 所示。它通过一个相对简单的插件系列稳态和去稳态模块来探索时间序列预测任务中的过平稳化问题，以修改和提升各种注意力块的性能。

图 2：用于时间序列预测的模块级 Transformer 变体的分类

模块级 Transformer 的第三种变体是利用偏置进行令牌输入。Autoformer 采用基于分割的表示机制。它设计了一个简单的季节性趋势分解架构，具有作为注意力模块的自相关机制。自相关模块测量输入信号之间的时延相似性，并聚合前 k 个相似子系列，以降低复杂度生成输出。PatchTST 利用与通道独立，其中每个通道包含一个单变量时间序列，该时间序列在所有序列中共享相同的嵌入，以及子系列级补丁设计，将时间序列分割成子系列级补丁，作为 Transformer 的输入标记。这种 ViT 的设计大大提高了其在长时间时间序列预测任务中的数值性能。Crossformer提出了一个基于 Transformer 的模型，利用跨维度依赖性进行多变量时间序列预测。通过新颖的维度段嵌入，将输入嵌入到二维向量阵列中，以保留时间和维度信息。然后，利用两阶段注意力层有效地捕捉跨时间和跨维度的依赖关系。

架构级变体 一些论文开始设计一种新的Transformer 架构，超出了原版Transformer 的范围。Triformer设计了一个三角形的、特定于变量的贴片注意力。它具有三角形树型结构，因为后期输入大小呈指数级缩小，并且一组特定于变量的参数使多层 Triformer 保持轻量级和线性复杂性。Scaleformer提出了一个多尺度框架，可以应用于基于基线Transformer 的时间序列预测模型（FEDformer，Autoformer等）。它可以通过在多个尺度上使用共享权重迭代优化预测的时间序列来提高基线模型的性能。

评论 DLinear质疑使用 Transformer 进行长期时间序列预测的必要性，并通过实证研究表明，与某些 Transformer 基线相比，更简单的基于 MLP 的模型可以获得更好的结果。然而，本文注意到，与DLinear相比，最近的Transformer模型PatchTST在长期时间序列预测方面取得了更好的数值结果。此外，有一项彻底的理论研究表明 Transformer 模型是序列到序列函数的通用近似器。仅仅基于这种方法的某些变体实例的实验结果来质疑任何类型的时间序列预测方法的潜力是夸大其词的，特别是对于已经证明在大多数基于机器学习的任务中的性能的 Transformer 模型。因此，本文得出结论，总结最近基于Transformer的时间序列预测模型是必要的，这将使整个社区受益。

时空预测

在时空预测中，时序和时空依赖性在时间序列中都被考虑在内，以便进行准确的预测。

Traffic Transformer设计了一个编码-解码器结构，使用自注意力模块来捕获时空依赖关系，并使用图神经网络模块来捕获空间依赖关系。用于交通流预测的时空Transformer 更进一步，除了引入时态 Transformer 模块来捕获时间依赖关系外，它还设计了一个空间 Transformer 模块，以及一个图卷积网络，以更好地捕获空间依赖关系。时空图Transformer设计了一种基于注意力的图卷积机制，能够学习复杂的时空注意力模式，从而改善行人轨迹预测。Earthformer 提出了一种用于高效时空建模的模块注意力，它将数据分解为模块并行应用模块级别的自注意力。它表明Earthformer在天气和气候预报方面取得了卓越的性能。最近，AirFormer设计了一个标靶(dartboard)空间自注意力模块和一个因果时间自注意力模块，分别有效地捕捉空间相关性和时间依赖性。此外，它还增强了具有潜在变量的 Transformers，以捕获数据不确定性并改善空气质量预测。

事件预测

在许多实际应用中，具有不规则和异步时间戳的事件序列数据是自然观察到的，这与具有相等采样间隔的常规时间序列数据形成鲜明对比。事件预测或预测旨在根据过去事件的历史来预测未来事件的时间和标记，并且通常由时间点过程（TPP）建模。最近，一些神经 TPP 模型结合了 Transformer，以提高事件预测的性能。自注意霍克斯过程（SAHP）和Transformer Hawkes过程（THP）采用Transformer编码器架构总结历史事件的影响，并计算事件预测的强度函数。它们通过将时间间隔转换为正弦函数来修改位置编码，以便可以利用事件之间的间隔。后来，提出了一种更灵活的命名的按时间观察神经数据日志（ANDTT）通过嵌入所有可能的事件和时间来扩展 SAHP/THP 方案。实验表明，与现有方法相比，它可以更好地捕获复杂的事件依赖关系

5.2 异常检测中的Transformer

基于 Transformer 的架构还有利于时间序列异常检测任务，能够对时间依赖性进行建模，从而带来高检测质量。此外，在包括 TranAD、MT-RVAE和 TransAnomaly在内的多项研究中，研究人员建议将 Transformer 与神经生成模型相结合，例如 VAE 和 GAN ，以获得更好的异常检测性能。本文将在下一部分中详细阐述这些模型。

TranAD提出了一种对抗性训练程序来放大重建误差，因为基于 Transformer 的简单网络往往会遗漏小的异常偏差。GAN风格对抗训练程序由两个Transformer编码器和两个Transformer解码器设计，以获得稳定性。消融研究表明，如果更换基于Transformer的编码器-解码器，F1得分会下降近11%，这表明Transformer架构对时间序列异常检测的影响。

MT-RVAE和 TransAnomaly将 VAE 与 Transformer 相结合，但它们具有不同的用途。TransAnomaly 将 VAE 与 Transformer 相结合，以实现更多的并行化，并将训练成本降低近 80%。在MT-RVAE中，多尺度Transformer被设计用于提取和整合不同尺度的时间序列信息。它克服了传统 Transformer 的缺点，即仅提取本地信息进行顺序分析。

GTA将 Transformer 与基于图的学习架构相结合，用于多变量时间序列异常检测。要注意的一点是，MT-RVAE 也适用于多变量时间序列，但维度很少或序列之间的密切关系不足，图神经网络模型不能很好地工作。为了应对这一挑战，MT-RVAE修改了位置编码模块，并引入了特征学习模块。相反，GTA 包含一个图卷积结构来模拟影响传播过程。与MT-RVAE类似，GTA也考虑了“全局”信息，但用多分支注意力机制取代了普通的多头注意力，即全局学习注意力、vanilla多头注意力和邻域卷积的组合。

AnomalyTrans结合了 Transformer 和高斯先验关联，使异常更容易区分。AnomalyTrans 与 TranAD 有着相似的动机，以不同的方式实现了目标。最终，与正常性相比，异常更难与整个系列建立牢固的联系，而相邻时间点则更容易。在AnomalyTrans中，先验关联和系列关联同时建模。除了重建损失外，还通过最小最大值策略优化了异常模型，以约束先验和序列关联，从而实现更可区分的关联差异。

5.3 分类中的Transformer

Transformer 因其在捕获长期依赖性方面的突出能力而被证明在各种时间序列分类任务中是有效的。GTN使用双塔Transformer，每个塔分别处理时间步长注意力和通道注意力。为了合并两座塔的特征，使用了可学习的加权串联（也称为“门控”）。Transformer 的扩展在 13 个多变量时间序列分类上取得了最先进的结果。Rußwurm 和 Korner 研究了用于原始光学卫星时间序列分类的基于自注意力的 Transformer，与循环和卷积神经网络相比，获得了最佳结果。最近，TARNet 设计了 Transformer 来学习任务感知数据重建，从而增强分类性能，利用注意力得分对重要时间戳进行掩蔽和重建，并带来卓越的性能。

在分类任务中还研究了预先训练的Transformer 。Yuan and Lin研究了用于原始光学卫星图像时间序列分类的 Transformer。由于标记数据有限，作者使用自监督预训练模式。Zerveas引入了一个无监督的预训练框架，该模型使用比例屏蔽数据进行预训练。然后，在分类等下游任务中对预训练的模型进行微调。Yang提出使用大规模预训练语音处理模型解决下游时间序列分类问题，并在 30 个流行的时间序列分类数据集上生成了 19 个竞争结果。

6 实验评估与讨论

本文对典型的具有挑战性的基准数据集 ETTm2进行了初步实证研究，以分析 Transformer 如何处理时间序列数据。由于经典统计 ARIMA/ETS 模型和基本 RNN/CNN 模型在该数据集中的表现不如 Transformers，我们重点关注实验中具有不同配置的流行时间序列Transformer。

鲁棒性分析

本文上面描述的许多工作都精心设计了注意力模块，以降低二次计算和内存复杂性，尽管他们实际上使用短的固定大小输入来在他们报告的实验中达到最佳结果。这让本文质疑这种高效设计的实际使用。本文通过延长输入序列长度进行了稳健的实验，以验证它们在处理表 2 中的长期输入序列时的预测能力和鲁棒性。

如表2所示，当我们将预测结果与延长输入长度进行比较时，各种基于Transformer的模型迅速恶化。这种现象使得许多精心设计的Transformer在长期预测任务中变得不切实际，因为它们无法有效地利用长输入信息。需要研究更多的工作和设计，以充分利用长序列输入以获得更好的性能。

表2：预测输入长度延长的ETTm2数据集96步的MSE鲁棒性实验的MSE比较。

模型大小分析

在被引入时间序列预测领域之前，Transformer 在 NLP 和 CV 社区中表现出主导性能。Transformer 在这些领域的主要优势之一是能够通过增加模型大小来提高预测能力。通常，模型容量由 Transformer 的层号控制，层号通常设置在 12 到 128 之间。然而，如表3的实验所示，当我们将预测结果与具有不同层数的不同Transformer模型进行比较时，具有3至6层的Transformer通常获得更好的结果。它提出了一个问题，即如何设计具有更深层的适当 Transformer 架构，以增加模型的容量并实现更好的预测性能。

表3：不同层数ETTm2数据集预测96步的模型规模实验中的MSE比较。

季节性趋势分解分析

在最近的研究中，研究人员开始意识到季节性趋势分解是 Transformer 在时间序列预测中性能的关键部分。如表4所示，本文采用《Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting》中提出的简单移动平均季节性趋势分解架构来测试各种注意力模块。可以看出，简单的季节性趋势分解模型可以显著提高模型性能的50%至80%。这是一个独特的块，这种通过分解来提升性能似乎是 Transformer 应用时间序列预测中的一致现象，这值得进一步研究，以便进行更高级和精心设计的时间序列分解方案。

表4：季节性趋势分解分析消融实验中的MSE比较。“Ori”是指没有分解的原始版本。“Decomp”是指分解。该实验在输出长度延长的 ETTm2 数据集上进行。

7 未来的研究机会

在这里，我们重点介绍了未来在时间序列中研究Transformer 的几个潜在前景的方向。

7.1 时间序列Transformer的归纳偏置

Vanilla Transformer 不对数据模式和特性做出任何假设。虽然它是一个用于建模长程依赖关系的通用网络，但它也有代价，即需要大量数据来训练 Transformer 以提高泛化并避免数据过拟合。时间序列数据的主要特征之一是其季节性/周期性和趋势模式。最近的一些研究表明，将序列周期性或频率处理纳入时间序列 Transformer 可以显着提高性能。此外，有趣的是，一些研究采用了看似相反的归纳偏置，但都实现了良好的数值改进：《A time series is worth 64 words: Longterm forecasting with transformers》通过利用与通道无关的注意力模块消除了跨通道依赖性，而一项有趣的工作《Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting》通过利用具有两阶段注意力机制的跨维度依赖性来提高其实验性能。显然，在这种跨通道学习范式中，我们有噪声和信号，但仍然需要一种巧妙的方法来利用这种归纳偏置来抑制噪声并提取信号。因此，未来的一个方向是考虑更有效的方法，根据对时间序列数据和特定任务特征的理解，将归纳偏置引入Transformer。

7.2 用于时间序列的Transformer 和 GNN

多变量和时空时间序列在应用中变得越来越普遍，需要额外的技术来处理高维性，尤其是捕获维度之间潜在关系的能力。引入图神经网络（GNN）是模拟空间依赖关系或维度之间关系的一种自然方法。最近，几项研究表明，GNN 和 Transformers/注意力的结合不仅可以带来显着的性能改进，例如在交通预测和多模态预测中，而且也更好地理解了时空动态和潜在因果关系。将Transformers和GNN结合起来，在时间序列中有效地进行时空建模是一个重要的未来方向。

7.3 用于时间序列的预训练Transformer

大规模预训练的 Transformer 模型显着提高了 NLP 和 CV 中各种任务的性能。然而，关于时间序列预训练Transformer的研究有限，现有研究主要集中在时间序列分类上。因此，如何为时间序列中的不同任务开发合适的预训练 Transformer 模型仍有待研究。

7.4 具有架构级别变体的Transformer 模型

大多数开发的用于时间序列的 Transformer 模型都保留了原版 Transformer 的架构，主要在注意力模块中进行了修改。我们可以借鉴 NLP 和 CV 中的 Transformer 变体的想法，它们也具有架构级模型设计以适应不同的目的，例如轻量级，跨区块连接，自适应计算时间和复发(recurrence)。因此，未来的一个方向是考虑为Transformers进行更多的架构级设计，专门针对时间序列数据和任务进行优化。

7.5 带有 NAS 的时间序列Transformer

超参数，例如嵌入的纬度和头/层的数量，会在很大程度上影响 Transformer 的性能。手动配置这些超参数非常耗时，并且通常会导致性能欠佳。AutoML 技术，如神经架构搜索（NAS）一直是发现有效深度神经架构的流行技术，并且在最近的研究中可以找到在 NLP 和 CV 中使用 NAS 自动化 Transformer 设计。对于工业规模的时间序列数据，可以是高维的，也可以是长长度的，自动发现内存和计算效率高的Transformer架构具有实际意义，使其成为时间序列Transformer未来的重要方向。

8 结论

本文提供了一项关于时间序列Transformer的调查，将所审查的方法组织在由网络设计和应用组成的新分类法中，并总结了每个类别的代表性方法，通过实验评估讨论了它们的优势和局限性，还强调了未来的研究方向。

论文下载：https://arxiv.org/abs/2202.07125
论文源码：https://github.com/qingsongedu/time-series-transformers-review

总结

这是一篇时序Transformer的综述，对时序时序Transformer做了基础的分类，也是一个总结比较全面的目录，通过这篇文章可以快速了解时序Transformer的现状，并且可以依据自己的兴趣去查看这篇综述引用的论文。

启发

很多以前的时序神经网络或者其他神经网络领域的基础技术在时序Transformer中仍然可以得到应用，让时序Transformer的性能得到提升，虽然新模型的诞生总会伴随着新的改进方式，但以往的改进方式并没有完全被淘汰，在寻求新的突破口比较困难的时候，不妨看看那些过去的或者其他领域的改进方式，也许能得到一些启发。