Are Transformers Effective for Time Series Forecasting论文全文翻译

最新推荐文章于 2025-04-23 00:17:54 发布

happylife_mini

最新推荐文章于 2025-04-23 00:17:54 发布

阅读量1.8k

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_46384757/article/details/131235817

版权

文章质疑了基于Transformer的长期时间序列预测（LTSF）模型的有效性，通过引入简单的LTSF-Linear模型作为基线，实验结果显示LTSF-Linear在多个数据集上优于现有的Transformer模型。研究发现Transformer在时间序列建模中的时间信息保留不足，且其性能随输入序列增长而下降，提出对Transformer在LTSF任务上的适用性进行重新审视。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformers对时间序列预测有效吗？

摘要

最近，针对长期时间序列预测（LTSF）任务的基于Transformer的解决方案激增。尽管在过去几年中取得了越来越大的成绩，但我们对这项工作中这一研究路线的有效性提出了质疑。具体来说， Transformers可以说是提取长序列中元素之间语义相关性的最成功的解决方案。然而，在时间序列建模中，我们需要提取连续点的有序集合中的时间关系。虽然采用位置编码和使用标记来将子序列嵌入到 transformer中有利于保留一些排序信息，但是置换不变的自注意机制的性质不可避免地导致时间信息丢失。为了验证我们的观点，我们引入了一组令人尴尬的简单的单层线性模型LTSF-Linear作为比较。在9个真实数据集上的实验结果表明，LTSF-Linear在所有情况下都优于现有的基于Transformer的复杂 LTSF模型，而且往往有很大的优势。此外，我们还进行了全面的实证研究，以探讨LTSF模型的各种设计元素对其时态关系抽取能力的影响。我们希望这一惊人的发现为LTSF任务开辟新的研究方向。我们还提倡重新审视基于Transformer的解决方案对于其他时间序列分析任务的有效性（例如，异常检测）。代码可从以下网址获得：www.example.com网站。https://github.com/cure-lab/LTSFLinear.

1 引言

时间序列在当今数据驱动的世界中无处不在。给定历史数据，时间序列预测（TSF）是一个长期的任务，具有广泛的应用范围，包括但不限于交通流估计、能量管理和金融投资。在过去的几十年中，TSF解决方案经历了从传统统计方法（例如，ARIMA [1]）和机器学习技术（例如，GBRT [11]）到基于深度学习的解决方案，例如，递归神经网络[15]和时间卷积网络[3，17]。
Transformer [26]可以说是最成功的序列建模架构，在各种应用中表现出无与伦比的性能，如自然语言处理（NLP）[7]、语音识别[8]和计算机视觉[19，29]。最近，基于Transformer的时间序列分析解决方案也在激增，如[27]中所述。最值得注意的模型，侧重于探索较少和具有挑战性的长期时间序列预测（LTSF）问题，包括LogTrans [16]（神经IPS 2019），Informer [30]（AAAI 2021年最佳论文），自动成型机[28]（NeurIPS 2021年）、Pyramorer [18]（ICLR 2022年Oral）、Triformer [5]（IJCAI 2022 年）和最近的FEDformer [31]（ICML 2022年）。
Transformers的主要工作动力来自其多头自注意机制，该机制具有显著的提取长序列中元素之间语义相关性的能力（例如，文本中的单词或图像中的2D面片）。然而，自我注意具有排列不变性，在一定程度上具有“反序性”。虽然使用各种类型的位置编码技术可以保留一些排序信息，但是在它们之上应用自我注意之后仍然不可避免地具有时间信息损失。这对于诸如NLP之类的语义丰富应用通常不是一个严重的问题，即使我们对句子中的一些词进行重新排序，句子的语义在很大程度上也得到了保留。然而，在分析时间序列数据时，数值数据本身通常缺乏语义，我们主要对连续点集之间的时间变化进行建模。也就是说，秩序本身起着最关键的作用。因此，我们提出以下有趣的问题：transformers对长期时间序列预测真的有效吗？
此外，虽然现有的基于变换的LTSF解决方案已经证明了相对于传统方法的相当大的预测精度改进，但是在它们的实验中，所有比较的（非变换）基线执行自回归或迭代多步（IMS）预测[1，2，22，24]，已知这些预测对于LTSF问题遭受显著的误差累积效应。因此，在本文中，我们用直接多步预测策略来验证基于Transformer的LTSF解决方案的真实性能。
并非所有的时间序列都是可预测的，更不用说长期预测（例如：对于混沌系统）。我们假设长期预测只适用于那些趋势和周期性比较明显的时间序列。由于线性模型已经可以提取这样的信息，我们引入了一组令人尴尬的简单模型LTSF-Linear作为新的比较基线。LTSF-Linear使用一层线性模型对历史时间序列进行回归，直接预测未来时间序列。我们在九个广泛使用的基准数据集上进行了广泛的实验，这些数据集涵盖了各种实际应用：交通、能源、经济、天气和疾病预测。令人惊讶的是，我们的结果显示LTSF- Linear在所有情况下都优于现有的基于Transformer的复杂模型，而且往往有很大的优势（20%到50%）。此外，我们发现，与现有Transformers中的主张相反，它们中的大多数不能从长序列中提取时间关系，即，预测误差没有随着回顾窗口大小的增加而减小（有时甚至增加）。最后，我们对现有的基于Transformer的TSF解决方案进行了各种消融研究，以研究其中各种设计元素的影响。
综上所述，本工作的贡献包括：
 据我们所知，这是第一个挑战蓬勃发展的transformer长期时间序列预测任务的有效性的工作。为了验证我们的主张，我们引入了一组令人难堪的简单单层线性模型，命名为LTSF-Linear，并在九个基准上将它们与现有的基于Transformer的LTSF解决方案进行比较。LTSF-Linear可以作为 LTSF问题的一个新的基线。
 我们对现有基于Transformer的解决方案的各个方面进行了全面的实证研究，包括建模长输入的能力、对时间序列顺序的敏感性、位置编码和子序列嵌入的影响以及效率比较。本研究结果将有助于该领域的进一步研究。
综上所述，我们得出结论，Transformers对时间序列的时间建模能力被夸大了，至少对于现有的LTSF基准测试是这样。与此同时，虽然LTSF-Linear与现有工作相比实现了更好的预测精度，但它仅作为未来研究具有挑战性的长期TSF问题的简单基线。根据我们的发现，我们还主张在未来重新审视基于 Transformer的解决方案在其他时间序列分析任务中的有效性。

2 准备工作：问题与公式

对于包含C个变量的时间序列，给定历史数据X = {Xt 1，…，Xt {C}L {t}=1，其中L是回顾窗口大小，Xt {i}是第t个时间步长处的第i个变量的值。时间序列预测的任务是预测X = {Xt 1，…，Xt C}L+T t=L+1在T个未来时间步。当T>1时，迭代多步预测（IMS）学习单步预测器，并迭代地应用它来获得多步预测。或者，直接多步（DMS）预测[4]直接一次优化多步预测目标。
与DMS预测结果相比，由于采用了自回归估计过程，IMS预测结果的方差较小，但不可避免地会受到误差累积效应的影响。因此，当存在高精度单步预测器并且T相对较小时，IMS预测是优选的。相比之下， DMS预测在难以获得无偏单步预测模型或T较大时生成更准确的预测。

3 基于Transfomer的LTSF解决方案

由于多头自注意机制的有效性，基于transformer的模型[26]在自然语言处理和计算机视觉领域的许多长期存在的人工智能任务中取得了无与伦比的性能。这也引发了对基于Transformer的时间序列建模技术的大量研究兴趣[20，27]。特别地，大量的研究工作致力于LTSF任务（例如，[16，第18、28、30、31条]）。考虑到Transformer模型捕捉长期相关性的能力，大多数模型都集中在探索较少的长期预测问题（T>>1）1上。
当将vanilla Transformer模型应用于LTSF问题时，其具有一些局限性，包括原始自注意方案的二次时间/存储器复杂度以及自回归解码器设计引起的误差累积。Informer [30]解决了这些问题，并提出了一种复杂性降低的新型Transformer架构和DMS预测策略。后来，更多的Transformer变体在其模型中引入了各种时间序列特征，以提高性能或效率[18，28，31]。我们将现有的基于Transformer的LTSF解决方案的设计元素总结如下（参见图1）。

图1. 现有基于Transformer的TSF解决方案的管道。在（a）和（b）中，实线框是必要的操作，虚线框是可选地应用的。©和（d）对于不同的方法是不同的[16，18，28，30，31]。
1 时间序列分解
对于数据预处理，零均值归一化在TSF中是常见的。此外，Autoformer [28]首先在每个神经块后面应用季节趋势分解，这是时间序列分析中的标准方法，以使原始数据更可预测[6，13]。具体地说，它们使用输入序列上的移动平均核来提取时间序列的趋势周期分量。原始序列与趋势分量之差被认为是季节分量。FEDformer [31]在Autoformer分解方案的基础上，进一步提出了专家策略的混合，将不同核大小的移动平均核提取的趋势分量进行混合。
2 输入嵌入策略
Transformer体系结构中的自注意力层无法保留时间序列的位置信息。然而，局部位置信息，即时间序列的排序是重要的。此外，全局时间信息，如分层时间戳（周、月、年）和不可知时间戳（假日和事件），也是信息丰富的[30]。为了增强时间序列输入的时间上下文，基于SOTA变换的方法中的一个实用设计是向输入序列中注入几种嵌入，如固定位置编码、信道投影嵌入和可学习的时间嵌入。此外，引入了具有时间卷积层[16]或可学习时间戳[28]的时间嵌入。
3 自注意力机制
Transformer依赖于自注意机制来提取成对元素之间的语义依赖关系。最近的工作是为了减少普通 Transformer的O(L平方)时间和内存复杂度，提出了两种提高效率的策略。一方面，LogTrans和Pyramorer明确地将稀疏性偏差引入到自我注意方案中。具体而言，LogTrans使用Logsparse掩码将计算复杂度降低到O（LlogL），而Pyramerformer采用金字塔注意，以O（L）的时间和内存复杂度分层捕获多尺度时间依赖。另一方面，Informer和FEDformer使用自注意矩阵中的低秩属性。Informer提出了ProbSparse自注意机制和自注意提取操作，使算法复杂度降至O（LlogL）; FEDformer设计了傅立叶增强块和小波增强块，并采用随机选择的方法，使算法复杂度降至O（L）。最后，Autoformer设计了一种串行自相关机制来代替原有的自注意层。
4 解码器
vanilla Transformer解码器以自回归方式输出序列，导致推理速度慢和误差累积效应，特别是对于长期预测。Informer为DMS预测设计了一个生成式解码器。其他变压器变体采用类似的DMS策略。例如，Pyramformer使用连接时空轴的全连接层作为解码器。自动生成器将趋势-周期分量的两个细化分解特征和季节分量的堆叠自相关机制相加得到最终预测。FEDformer还使用具有所提出的频率关注块的分解方案来解码最终结果。
Transformer模型的前提是成对元素之间的语义相关性，而自我注意机制本身是置换不变的，其建模时间关系的能力很大程度上依赖于与输入标记相关的位置编码。考虑时间序列中的原始数值数据（例如，股票价格或电力价值），在它们之间几乎没有任何逐点语义相关。在时间序列建模中，我们主要关注连续点集之间的时间关系，而这些元素的顺序而非配对关系起着最关键的作用。虽然采用位置编码和使用标记来嵌入子序列有助于保留一些排序信息，但置换不变的自注意机制的性质不可避免地导致时间信息丢失。基于以上观察，我们有兴趣重新审视基于Transformer的LTSF解决方案的有效性。

4 一个简单的baseline

现有的基于Transformer的LTSF解决方案（T>>1）的实验中，所有比较的（非Transformer）基线都是IMS预测技术，已知其遭受显著的误差累积效应。我们假设这些作品中的性能改进很大程度上是由于其中使用的DMS策略。
图2.基本线性模型的图示。
为了验证这一假设，我们提出了一个最简单的DMS模型，通过一个时间线性层，命名为LTSF-Linear，作为基线进行比较。LTSFLinear的基本公式通过加权求和操作直接回归历史时间序列，以进行未来预测（如图2所示）。数学表达式为X i = WXi，其中W ∈ RT×L是沿着时间轴的线性层。X i靶和Xi是每个第i个变量的预测值和输入值。请注意，LTSF-Linear在不同变量之间共享权重，并且不对任何空间相关性建模。
LTSF-Linear是一组线性模型。Vanilla Linear是单层线性模型。为了跨不同域处理时间序列（例如，金融、交通和能源领域），我们进一步引入具有两种预处理方法的两种变体，称为DLinear和NLinear。
 具体而言，DLinear是Autoformer和FEDformer中使用的分解方案与线性层的组合。它首先通过移动平均核将原始数据输入分解为趋势分量和余数（季节性）分量。然后，对每个分量应用两个单层线性层，并将这两个特征相加以得到最终预测。通过显式处理趋势，DLinear可在数据中存在明显趋势时增强普通线性的性能。
 同时，为了提高LTSF-Linear在数据集存在分布偏移时的性能，NLinear首先用序列的最后一个值减去输入。然后，输入通过线性层，并且在做出最终预测之前将减去的部分加回。NLinear中的减法和加法是输入序列的简单归一化。

5 实验

1 实验设置
1.1 数据集
我们对九个广泛使用的真实世界数据集进行了广泛的实验，包括ETT（电力变压器温度）[30]（ETTh1， ETTh2，ETTm1，ETTm2）、交通、电力、天气、ILI、汇率[15]。它们都是多元时间序列。我们将数据描述保留在附录中。
1.2 评价指标
根据之前的工作[28，30，31]，我们使用均方误差（MSE）和平均绝对误差（MAE）作为比较性能的核心指标。
1.3 比较方法
我们包括五种最新的基于Transformer的方法：FEDformer [31]、Autoformer[28]、Informer[30]、 Pyraformer[18]和LogTrans[16]。此外，我们还包括一个朴素的DMS方法：Closets Repeat（Repeat），重复回顾窗口中的最后一个值，作为另一个简单基线。由于存在FEDformer的两个变体，因此我们比较具有更高精度的变体（通过傅里叶变换的FEDformer-f）。
2 与Transformer的比较
2.1 定量结果
在表2中，我们根据之前工作的实验设置[28，30，31]，在九个基准上广泛评估了所有提到的Transformer。令人惊讶的是，LTSF-Linear的性能在大多数情况下优于SOTA FEDformer，在多变量预测方面提高了20%到50%，而LTSFLinear甚至没有对变量之间的相关性进行建模。对于不同的时间序列基准，NLinear和DLinear在处理分布偏移和趋势季节性特征方面表现出了优势。我们还在附录中提供了ETT数据集的单变量预测结果，其中LTSF-Linear仍然始终大幅优于基于Transformer的LTSF解决方案。
FEDformer在ETTh1上实现了具有竞争力的预测精度。这是因为FEDformer采用了频率处理等经典的时间序列分析技术，引入了时间序列的诱导偏差，有利于时间特征提取的能力。总之，这些结果表明，现有的复杂的基于Transformer的LTSF解决方案在现有的九个基准上似乎并不有效，而LTSF-Linear可以作为一个强大的baseline。
另一个有趣的观察结果是，尽管简单的Repeat方法在预测长期季节性数据时显示出较差的结果（例如，电力和交通），它在汇率数据集上令人惊讶地优于所有基于Transformer的方法得到的结果（约45%）。这主要是由于基于Transformer的解决方案中对趋势的错误预测造成的，这可能会对训练数据中的突变噪声进行过拟合，从而导致准确度显著下降（参见图3（b））。相反，Repeat没有偏倚。
2.2 定性结果
如图3所示，我们使用基于Transformer的解决方案和LTSF-Linear绘制了三个选定时间序列数据集的预测结果：电力（序列1951，变量36）、汇率（序列676，变量3）和ETTh 2（序列1241，变量2），其中这些数据集具有不同的时间模式。当输入长度为96步，输出水平为336步时，Transformers [28， 30，31]无法捕获未来电力和ETTh 2数据的规模和偏差。此外，他们很难预测汇率等非周期性数据的正确趋势。这些现象进一步表明了现有的基于Transformer的解决方案对于LTSF任务的不足。
表1. 对LTSF问题的九个常用数据集进行了统计。
表2. 多元长期预测误差在均方误差和最大允许误差方面，越低越好。其中，ILI数据集的预测水平T∈{24，36，48，60}。对于其它的情形，T∈{96，192，336，720}。重复在回顾窗口中重复最后一个值。最佳结果以粗体突出显示，transformer的最佳结果以下划线突出显示。因此，IMP.是与基于 transformer的解决方案的结果相比线性模型的最佳结果。

3 LTSF-Transformer的再分析
现有的LTSF变换器能从较长的输入序列中很好地提取时间关系吗？回顾窗口的大小极大地影响预测的准确性，因为它决定了我们可以从历史数据中学习到多少。一般而言，具有强时间关系提取能力的强大 TSF模型应当能够在较大的回顾窗口尺寸下获得较好的结果。
为了研究输入回顾窗口大小的影响，我们在L ∈ {24，48，72，96，120，144，168，192，336， 504，672，720}的条件下进行了长期预报（T = 720）。图4显示了两个数据集的MSE结果。类似于来自先前研究的观察[27，30]，当回顾窗口大小增加时，现有的基于transformer的模型的性能恶化或保持稳定。相比之下，所有LTSF-Linear的性能都随着回顾窗口大小的增加而显著提高。因此，如果给定较长的序列，则现有解决方案倾向于过拟合时间噪声而不是提取时间信息，并且输入大小96正好适合于大多数变换器。

图3. 输入长度L = 96、输出长度T = 192（X轴）的五个模型的长期预测输出（Y轴）的图示，分别针对电力、汇率和ETTh2。

图4.交通和电力数据集上长期预测（T = 720）的不同回顾窗口大小（X轴）模型的MSE结果（Y轴）。此外，我们在附录中提供了更多的定量结果，我们的结论几乎适用于所有情况。
从长期预测中可以学到什么？回顾窗口中的时间动态性显著影响短期时间序列预测的预测精度，而长期时间序列预测仅取决于模型是否能够很好地捕捉趋势和周期性。也就是说，预测时间越长，回顾窗口本身的影响就越小。
表3.比较MSE度量下的不同输入序列，以探索LTSF变压器的依赖关系。如果输入为Close，则使用第96、…、第191个时间步长作为输入序列。如果输入为far，则使用第0、…、第95个时间步骤。他们都预测了192年…(192+ 720）个时间步长。

为了验证上述假设，在表3中，我们将相同的未来720个时间步长的预测精度与来自两个不同回顾窗口的数据进行比较：（一）.原始输入L = 96设置（称为close）和（ii）.远输入L = 96设置（称为far），其在原始96个时间步长之前。从实验结果来看，SOTA-Transformers的性能略有下降，表明这些模型仅从相邻时间序列捕获相似的时间信息。由于捕获数据集的固有特征通常不需要大量的参数，即一个参数可以表示周期性。使用太多参数甚至会导致过拟合，这部分解释了为什么LTSFLinear的性能优于基于 Transformer的方法。
自我注意方案对LTSF有效吗？我们验证现有transformer中的这些复杂设计（例如，Informer）是必不可少的。在表4中，我们逐渐将Informer转换为Linear。首先，我们用一个线性层代替每个自我注意层，称为Att-Linear，因为自注意力层可以被看作是一个全连接层，其权重是动态变化的。此外，我们丢弃其它辅助设计（例如，FFN）以保留嵌入层和线性层，命名为Embed + Linear。最后，我们将模型简化为一个线性层。令人惊讶的是，Informer的性能随着逐渐简化而增长，这表明至少对于现有的LTSF基准测试来说，自注意方案和其他复杂模块是不必要的。
表4.从左到右列逐渐将"informer"转换为"线性"的MSE比较。Att.-Linear是一种用线性层替换每个关注层的结构。Embed + Linear是放弃其他设计，只保留嵌入层和线性层。回顾窗口大小为96。

现有的LTSF-transformer能否很好地保持时序？自我注意力本质上是排列不变的，也就是说，而不考虑顺序。然而，在时间序列预测中，序列顺序往往起着至关重要的作用。我们认为，即使有位置和时间嵌入，现有的基于变换的方法仍然遭受时间信息损失。在表5中，我们在嵌入策略之前重排原始输入。提出了两种混洗策略：Shuf.随机地打乱了所有的输入序列以及Half-Ex.将输入序列的前一半部分与后一半部分交换。有趣的是，在汇率数据上与原始设置（Ori.）比较，即使输入序列被随机打乱，所有基于transformer的方法的性能也不会波动。相反，LTSF-Linear的性能显著受损。结果表明，不同位置和时间嵌入的LTSF-Transformers保持了有限的时间关系，容易在有噪声的金融数据上过拟合，而LTSF- Linear能够自然地对订单建模，避免参数较少的过拟合。
表5.当重排原始输入序列时，模型的MSE比较。Shuf.随机地打乱了所有的输入序列以及Half-Ex.将输入序列的前一半部分与后一半部分交换。Average Drop是打乱后所有预测长度下的平均性能下降。所有结果均为5次运行的平均试验MSE。
对于ETTh1数据集，FEDformer和Autoformer在其模型中引入了时间序列归纳偏差（time seriesinductive bias），使其能够在数据集具有更清晰的时间模式时提取出一定的时间信息（例如：周期性），相比于没有周期性的汇率数据。因此，两种transformer在Shuf设置下的平均下降分别为73.28%和56.91%，此时它将丢失整个订单信息。然而，Informer在Shuf. 和Half-Ex. 设置中遭受了较少的性能损失，这是由于其没有这种时间感应偏置。总的来说，LTSF-Linear的平均下降在所有情况下都大于基于Transformer的方法，这表明现有的Transformer不能很好地保持时间顺序。
表6.基于变换的方法上不同嵌入策略的MSE比较，回顾窗口大小为96，预测长度为{96，192，336，720}。
不同的嵌入策略效果如何？我们研究了在基于Transformer的方法中使用位置和时间戳输入的好处。在表6中，在没有位置嵌入（wo/Pos.）的情况下，Informer的预测误差大大增加。无时间戳嵌入（无/临时）将随着预测长度的增加逐渐损害Informer的性能。由于Informer对每个token中使用单个时间步长，因此有必要在token中引入时间信息。
FEDformer和Autoformer不是在每个token中使用单个时间步长，而是输入一系列时间戳来嵌入时间信息。因此，它们可以在没有固定位置嵌入的情况下实现相当或甚至更好的性能。然而，如果没有时间戳嵌入，Autoformer的性能会因为全局时间信息的丢失而迅速下降。相反，由于FEDformer中提出的引入时间感应偏差的频率增强模块，它较少受到移除任何位置/时间戳嵌入的影响。训练数据大小是否是现有LTSF变压器的限制因素？有些人可能认为，基于Transformer的解决方案性能差是由于基准数据集的大小太小。与计算机视觉或自然语言处理任务不同，TSF是在收集的时间序列上执行的，很难按比例增加训练数据的大小。事实上，训练数据的大小确实会对模型性能产生显著影响。因此，我们对交通进行实验，比较在完整数据集（17，544 * 0.7小时）上训练的模型的性能，该完整数据集被称为Ori.，其中在缩短的数据集（8，760小时，即，1年），称为短。出乎意料的是，表7呈现了在大多数情况下具有减少的训练数据的预测误差更低。这可能是因为全年数据比较长但不完整的数据保持了更清晰的时间特征。虽然我们不能得出结论，我们应该使用更少的数据进行训练，但它表明训练数据规模不是Autoformer和FEDformer性能的限制性原因。
表7.两个训练数据大小的MSE比较。

表8.在L = 96和T = 720下LTSF变压器的实际效率的比较。MAC是乘累加运算的次数。我们使用Dlinear进行比较，因为它具有LTSF-Linear的两倍成本。推理时间平均为5次运行。

效率真的是头等大事吗？现有的LTSFTransformer声称，对于LTSF问题，普通Transformer的O(L平方)复杂度是无法承受的。尽管它们被证明能够将理论时间和存储器复杂度从O（L2）改善到O（L），但不清楚1）设备上的实际推理时间和存储器成本是否得到改善，以及2）存储器问题对于当今的GPU来说是不可接受的和紧迫的（例如，NVIDIA Titan XP）。在表8中，我们比较了5次运行的平均实际效率。有趣的是，与普通的Transformer（具有相同的DMS解码器）相比，大多数Transformer变体在实践中会导致相似甚至更差的推理时间和参数。这些后续措施引入了更多的附加设计元素，使得实际成本较高。此外，即使对于输出长度L = 720，普通Transformer的存储器成本实际上也是可接受的，这削弱了开发存储器高效Transformer的重要性，至少对于现有基准测试是如此。

6 结论和未来工作

1 结论
这项工作的有效性问题的新兴青睐transformer为基础的解决方案的长期时间序列预测问题。我们使用一个令人难堪的简单线性模型LTSF-Linear作为DMS预测基线来验证我们的说法。请注意，我们的贡献并非来自于提出线性模型，而是来自于抛出一个重要问题，展示令人惊讶的比较，并从不同角度证明LTSF变压器为何不如这些论文中所宣称的那样有效。我们真诚希望我们的全面研究能对今后这方面的工作有所裨益。
2 未来工作
LTSF-Linear的模型容量有限，它仅为未来研究提供了一个简单但具有竞争力的基线，具有很强的可解释性。例如，单层线性网络很难捕获由变化点引起的时间动态[25]。因此，我们相信有一个新的模型设计，数据处理和基准，以解决具有挑战性的LTSF问题的巨大潜力。

参考文献：
[1] Adebiyi A Ariyo, Adewumi O Adewumi, and Charles K Ayo. Stock price prediction using the arima model. In 2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation, pages 106–112. IEEE, 2014. 1, 2, 9
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv: Computation and Language, 2014. 2
[3] Shaojie Bai, J Zico Kolter, and Vladlen Koltun. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018. 1, 9
[4] Guillaume Chevillon. Direct multi-step estimation and forecasting. Journal of Economic Surveys, 21(4):746–785, 2007. 2
[5] Razvan-Gabriel Cirstea, Chenjuan Guo, Bin Yang, Tung Kieu, Xuanyi Dong, and Shirui Pan. Triformer:Triangular, variable-specific attentions for long sequence multivariate time series forecasting–full version. arXiv preprint arXiv:2204.13767, 2022. 1
[6] R. B. Cleveland. Stl : A seasonal-trend decomposition procedure based on loess. Journal of Office Statistics, 1990. 3
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and preprint arXiv:1810.04805, 2018. 1
[8] Linhao Dong, Shuang Xu, and Bo Xu. Speech transformer: a no-recurrence sequence-to-
sequence model for speech recognition. In 2018 IEEE Inter national Conference on Acoustics,
Speech and Signal Processing (ICASSP), pages 5884–5888. IEEE, 2018. 1
[9] Ruijun Dong and Witold Pedrycz. A granular time series approach to long-term forecasting and trend fore casting. Physica A: Statistical Mechanics and its Applications, 387(13):3253–3270, 2008. 10
[10] Shereen Elsayed, Daniela Thyssens, Ahmed Rashed, Hadi Samer Jomaa, and Lars Schmidt-
Thieme. Do we really need deep learning models for time series forecasting? arXiv preprint arXiv:2101.02118, 2021. 9
[11] Jerome H Friedman. Greedy function approximation: a gradient boosting machine. Annals of statistics, pages 1189–1232, 2001. 1, 9
[12] Everette S Gardner Jr. Exponential smoothing: The state of the art. Journal of forecasting, 4(1):1–28, 1985. 9
[13] James Douglas Hamilton. Time series analysis. Princeton university press, 2020. 3
[14] Andrew C Harvey. Forecasting, structural time series models and the kalman filter. 1990. 9
[15] Guokun Lai, Wei-Cheng Chang, Yiming Yang, and Hanxiao Liu. Modeling long- and short-term temporal patterns with deep neural networks. international acm sigir conference on research and development in information retrieval, 2017. 1, 4, 9
[16] Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, and Xifeng Yan. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. Advances in Neural Information Processing Systems, 32, 2019. 1, 2, 3, 4
[17] Minhao Liu, Ailing Zeng, Zhijian Xu, Qiuxia Lai, and Qiang Xu. Time series is a special sequence: Forecasting with sample convolution and interaction. arXiv preprint arXiv:2106.09305, 2021. 1, 9
[18] Shizhan Liu, Hang Yu, Cong Liao, Jianguo Li, Weiyao Lin, Alex X Liu, and Schahram Dustdar. Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting. In International Conference on Learning Representations, 2021. 1, 2, 3, 4, 9, 10
[19] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10012–10022, 2021. 1
[20] LIU Minhao, Ailing Zeng, LAI Qiuxia, Ruiyuan Gao, Min Li, Jing Qin, and Qiang Xu. T-wavenet: A treestructured wavelet neural network for time series signal analysis. In International Conference on Learning Representations, 2021. 2
[21] Gábor Petneházi. Recurrent neural networks for time series forecasting. arXiv preprint arXiv:1901.00069, 2019. 9
[22] David Salinas, Valentin Flunkert, and Jan Gasthaus. Deepar: Probabilistic forecasting with autoregressive recurrent networks. International Journal of Forecasting, 2017. 2
[23] Souhaib Ben Taieb, Rob J Hyndman, et al. Recursive and direct multi-step forecasting: the best of both worlds, volume 19. Citeseer, 2012. 2
[24] Sean J. Taylor and Benjamin Letham. Forecasting at scale. PeerJ Prepr., 2017. 2 [25] Gerrit JJ van den Burg and Christopher KI Williams. An evaluation of change point detection algorithms. arXiv preprint arXiv:2003.06222, 2020. 8
[26] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017. 1, 2, 9
[27] Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, and Liang Sun.
Transformers in time series: A survey. arXiv preprint arXiv:2202.07125, 2022. 1, 2, 5
[28] Jiehui Xu, Jianmin Wang, Mingsheng Long, et al. Autoformer: Decomposition transformers with autocorrelation for long-term series forecasting. Advances in Neural Information Processing Systems, 34, 2021. 1, 2, 3, 4, 5, 9
[29] Ailing Zeng, Xuan Ju, Lei Yang, Ruiyuan Gao, Xizhou Zhu, Bo Dai, and Qiang Xu. Deciwatch: A simple baseline for 10x efficient 2d and 3d pose estimation. arXiv preprint arXiv:2203.08713, 2022. 1
[30] Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In The Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Virtual Conference, volume 35, pages 11106– 11115. AAAI Press, 2021. 1, 2, 3, 4, 5, 9
[31] Tian Zhou, Ziqing Ma, Qingsong Wen, Xue Wang, Liang Sun, and Rong Jin. Fedformer: Frequency enhanced decomposed transformer for long-term serie forecasting. In International Conference on Machine Learning, 2022. 1, 2, 3, 4