【时间序列预测】Are Transformers Effective for Time Series Forecasting?

理心炼丹

已于 2022-07-07 18:21:27 修改

阅读量1.5k

点赞数 3

分类专栏：论文阅读时间序列预测以及异常检测文章标签：深度学习时间序列预测

于 2022-06-06 13:29:05 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/hymn1993/article/details/125141639

版权

论文阅读同时被 2 个专栏收录

26 篇文章 7 订阅

订阅专栏

时间序列预测以及异常检测

16 篇文章 48 订阅

订阅专栏

题目：Transformers 对时间序列预测有效吗?

发表时间：2022.05.26

平台：arXiv

来源：香港中文大学

最近，基于Transformer 的时间序列预测(TSF)任务解决方案激增，特别是具有挑战性的长期TSF问题。Transformer 架构依靠 self-attention 有效提取长序列中成对元素之间的语义关联，这种关联具有一定的排列不变性和“反排序”特性（permutation-invariant and “anti-ordering”）。然而，在时间序列建模中，我们要提取连续点的有序集合之间的时间关系。因此，基于Transformer 的技术是否是“长期”时间序列预测的正确解决方案是一个值得研究的有趣问题，尽管这些研究显示性能有所提高。在这项工作中，我们质疑基于 Transformer 的TSF解决方案的有效性。在他们的实验中，比较(非Transformer )基线主要是自回归预测解决方案，由于不可避免的误差累积效应，通常长期预测能力较差。相比之下，我们使用了一个简单得令人尴尬的架构，名为 DLinear，它可以直接进行多步(direct multi-step DMS)预测，以便进行比较。DLinear 将时间序列分解为趋势序列和剩余序列，并使用两个单层线性网络对这两个序列进行建模，用于预测任务。令人惊讶的是，在大多数情况下，它的性能大大超过了现有的基于transformer的复杂模型。因此，我们得出结论，现有工作中基于 Transformer 的TSF解决方案相对较高的长期预测精度与 Transformer 架构的时间关系提取能力关系不大。这主要是由于它们采用了非自回归DMS预测策略。我们希望本研究也提倡在未来的时间序列分析任务(如异常检测)中重新审视基于 Transformer 的解决方案的有效性。代码是可用的在 https://github.com/cure-lab/DLinear。

评价：搞了半天复杂的Transformer ，最后发现这玩意没啥用，主要还是直接预测多步（DMS）起的作用？

1. 引言

时间序列在当今数据驱动的世界中无处不在。鉴于历史数据，时间序列预测(TSF)是一项长期存在的任务，具有广泛的应用，包括但不限于交通流估计、能源管理和金融投资。
在过去的几十年里，TSF 解决方案经历了从传统的统计方法(如ARIMA[1])和机器学习技术(如GBRT[10])到基于深度学习的解决方案，如循环神经网络(RNNs)[15]和时间卷积网络(TCNs)[3]的发展。与此同时，我们正在处理越来越复杂和多样化的时间序列数据，从单变量时间序列到多变量时间序列，以及今天许多应用中的大时间序列，需要先进的深度神经网络进行时间关系提取。

Transformer[25]可以说是最成功的序列建模架构，在各种人工智能应用中表现出无与伦比的性能，如自然语言处理[6]、语音识别[7]和运动分析[19]。最近，[26]中调查的基于Transformer的时间序列分析解决方案也出现了激增。TSF任务的一些著名模型包括: LogTrans [16] (NeurIPS 2019)， Informer [28] (AAAI 2021年最佳论文)，Autoformer [27] (NeurIPS 2021)， Pyraformer [18] (ICLR 2022 Oral)，以及最近的FEDformer [29] (ICML 2022)。

上述大部分工作都集中在研究较少的长期时间序列预测(LTSF)问题上，表明与传统方法相比，预测精度有相当大的提高。然而，在他们的实验中，所有的比较(非Transformer)基线都进行了自回归预测[1,21,2,23]，这是已知的存在显著的误差累积效应。更重要的是, Transformer 架构的主要工作能力来自于多头self-attention机制, 在一个长序列中具有非凡的能力提取元素之间的语义相关性(例如,文本中的words或图像中的 2D patches), 这个过程是permutation-invariant,即, 不管顺序如何。然而，对于时间序列分析，我们主要感兴趣的是在一组连续的点之间建立时间动力学模型，其中顺序本身往往起着最关键的作用。基于以上分析，我们提出了一个有趣的问题: Transformers 对长期时间序列预测真的有效吗?

为了回答这个问题，我们提出了一个非常简单的网络DLinear作为比较基线。DLinear将时间序列分解为趋势序列和剩余序列，利用两个单层线性网络对这两个序列进行直接多步(DMS)预测建模。我们对九个广泛使用的基准进行了广泛的实验，包括几个现实生活中的应用:交通、能源、经济、天气和疾病预测。

我们的结果表明，在大多数情况下，DLinear在很大程度上优于现有的基于 Transformer 的复杂模型。特别是对于没有明显周期性的汇率数据集，最先进的方法[29]的预测误差比DLinear的预测误差大2倍以上。此外，我们发现，与现有的工作声明的相反，他们中的大多数未能从长序列中提取时间关系，即预测误差并没有随着回望（ look-back）窗口大小的增加而减少(有时甚至增加)。最后，我们还对现有的基于Transformer 的TSF解决方案进行了各种消融研究，以研究各种设计元素对其中的影响。

由此，我们得出结论，Transformer 对时间序列的时间建模能力被夸大了，至少在时间序列预测问题上是如此。与此同时，虽然 DLinear 取得了比现有工作更好的预测精度，但它只是为未来研究具有挑战性的长期TSF问题提供一个简单的基线。基于我们的研究结果，我们也提倡在未来重新审视基于Transformer 的解决方案对于其他时间序列分析任务(例如，异常检测)的有效性。

本文的其余部分组织如下。第2节对时间序列预测进行了初步介绍。然后，我们在第3节讨论现有的基于Transformer 的解决方案。接下来，第4节详细介绍了基线DLinear架构。实验结果将在第5节中展示。最后，第6节对本文进行总结。

评价：继续对摘要的补充说明，也没啥东西，强调时间序列建模中的时间的重要性，而基于Transformer 的模型对时间的建模并不是很好，使用的历史数据增加（增加 look-back 窗口大小）并没有减小预测误差。

略。。。。

后面也没啥东西

这里的时间序列分解和Autoformer 一模一样，后面就是两个线性层最后加一起。就效果好了。

得出的结论是：Transformer 没啥卵用，主要是靠直接预测多步。

未来可以做的工作：

单线性层太简单不能处理复杂的时间序列
其他时间序列任务，如异常检测的Transformer 有没有用需要研究。

理心炼丹

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
【时间序列预测】Are Transformers Effective for Time Series Forecasting?

最近，基于Transformer 的时间序列预测(TSF)任务解决方案激增，特别是具有挑战性的长期TSF问题。Transformer 架构依靠 self-attention 有效提取长序列中成对元素之间的语义关联，这种关联具有一定的排列不变性和“反排序”特性（permutation-invariant and “anti-ordering”）。然而，在时间序列建模中，我们要提取连续点的有序集合之间的时间关系。因此，基于Transformer 的技术是否是“长期”时间序列预测的正确解决方案是一个值得研究的有趣
复制链接

扫一扫