NeurIPS 2022|非平稳时间序列的Transformer预测框架

最新推荐文章于 2024-04-26 09:40:57 发布

hellozhxy

最新推荐文章于 2024-04-26 09:40:57 发布

阅读量182

点赞数

文章标签： transformer

原文链接：https://zhuanlan.zhihu.com/p/635559067

版权

NeurIPS 是全球最负盛名的 AI 学术会议，全称是 Neural Information Processing Systems（神经信息处理系统大会）。该会议固定在每年的12月举办，主题包括深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。2022年总共有10,411份投稿，接受了2672份，总的接受率为25.6%

Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting

Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long

School of Software, BNRist, Tsinghua University, China

1.背景和问题

Transformers 由于其全局范围建模能力在时间序列预测方面起到巨大作用。然而，它们的性能可能会在联合分布随时间变化的非平稳真实世界数据上严重退化。以往的研究主要采用平稳化来减弱原始序列的非平稳性，以获得更好的可预测性。但是，平滑了固有非平稳性的平稳序列对现实世界的突发事件预测的指导意义不大。这个问题在本文中称为过度平稳化，会带来意想不到的副作用，使 Transformer 无法捕获重要的时间依赖性，限制模型的预测能力，甚至导致模型生成与 ground truth 存在巨大非平稳偏差的输出。因此，如何减弱时间序列的非平稳性以获得更好的可预测性，同时缓解模型能力的过度平稳化问题是进一步提高预测性能的关键问题。

本文探讨了平稳化在时间序列预测中的作用，并提出了Non-stationary Transformers 作为通用框架，它赋予了 Transformer及其高效变体对现实世界时间序列的强大预测能力。提出的框架涉及两个相互依赖的模块：Series Stationarization以增加非平稳序列的可预测性和De-stationary Attention以减轻过度平稳化。从技术上讲，Series Stationarization 采用了一种简单但有效的归一化策略，无需额外参数即可统一每个序列的关键统计数据。而De-stationary Attention近似于非平稳数据的attention 并补偿原始序列的内在非平稳性。受益于上述设计，Non-stationary Transformer 可以利用平稳序列的强大可预测性和从原始非平稳数据中发现的关键时间依赖性。

2.方法介绍

Nonstationary Transformers 涉及两个互补部分：Series Stationarization 以增强时间序列的平稳性以获得更好的可预测性，以及 De-stationary Attention 以重新合并原始序列的非平稳信息以防止过度平稳化。在这些设计的支持下，Non-stationary Transformers 可以同时提高数据的可预测性和模型能力。

2.1 Series Stationarization

非平稳时间序列使深度模型的预测任务变得棘手，因为它们很难很好地概括推理过程中统计数据发生变化的序列，通常是变化的均值和标准差。RevIN 将具有可学习仿射参数的实例归一化应用于每个输入，并将统计数据恢复到相应的输出，这使得每个序列都遵循相似的分布。通过实验发现这种设计在没有可学习参数的情况下也能很好地工作。因此，本文提出了一种更直接但有效的设计，将 Transformers 包装为没有额外参数的基本模型，命名为 Series Stationarization。如图 2 所示，它包含两个算子：首先是归一化模块，用于处理由均值和标准差变化引起的非平稳序列，最后是去归一化模块，将模型输出转换回原始统计数据。

2.1.1 Normalization module

为了减弱每个输入序列的非平稳性，通过随时间推移的滑动窗口对时间维度进行归一化。归一化模块减少了每个输入时间序列之间的分布差异，使模型输入的分布更加稳定。

��=1�∑�=1��,��2=1�∑�=1�(��−��)2,��′=1��⊙(��−��)

2.1.2 De-normalization module

如图2所示，采用De-normalization对模型输出进行变换。

�′=�(�′),�^�=��⊙(��′+��)

通过两阶段转换，基础模型将接收平稳化的输入，这些输入遵循稳定的分布并且更容易泛化。这种设计还使模型等变于时间序列的平移和尺度扰动，从而有利于现实世界的序列预测。

2.2 De-stationary Attention

虽然每个时间序列的统计数据都被显式地恢复到相应的预测中，但原始序列的非平稳性仅靠逆归一化是无法完全恢复的。例如，序列平稳化可以从不同的时间序列�1,�2(�2=��1+�)生成相同的平稳输入 �′，并且base model将获得相同的注意力，但未能捕获与非平稳性纠缠在一起的关键时间依赖性。换句话说，过度平稳化导致的破坏效应发生在深层模型内部，尤其是在注意力的计算中。此外，非平稳时间序列被分割并归一化为具有相同均值和方差的几个序列块，与平稳化之前的原始数据相比，它们遵循更相似的分布。因此，该模型更有可能产生过度平稳和平稳的输出，这与原始序列的自然非平稳性是不可调和的。

为了解决由 Series Stationarization 引起的过度平稳化问题，本文提出了一种新的去平稳化注意机制，它可以逼近没有平稳化获得的注意力，并从原始非平稳数据中发现特定的时间依赖性。

2.2.1 Analysis of the plain model

如上所述，过度平稳化问题是由固有的非平稳性信息消失引起的，这将使基础模型无法捕获事件的时间依赖性进行预测。因此，本文尝试近似从原始非平稳序列中学习到的注意力。本文从Self-Attention的公式出发：

Attn⁡(�,�,�)=Softmax⁡(��⊤��)�

为了简化分析，本文假设嵌入层和前馈层�保持线性特性，并且�在每个时间点上分别进行，即�=[�1,�2,⋯,��]� 中的每个查询可以计算为��=�(��)对于输入序列�=[�1,�2,⋯,��]�。由于通常对每个时间序列变量进行归一化，可以进一步假设序列�的每个变量具有相同的方差，因此原始的�∈��×1被简化为一个标量。在 Normalization 模块之后，模型接受平稳化输入�′=(�−1��)/��。

基于线性属性假设，可以证明Attention层会收到�′=[�(�1′),…,�(��′)]⊤=(�−1��⊤)/��，相应的变换后的�′,�′也是如此。

�′�′⊤=1��2(��⊤−1(��⊤�⊤)−(��)1⊤+1(��⊤��)1⊤),Softmax⁡(��)=Softmax⁡(��2�′�′⊤+1(��⊤�⊤)+(��)1⊤−1(��⊤��)1⊤��).

发现��∈��×1 和��⊤��∈�，它们分别在��2�′�′⊤∈��×�的每一列和元素上重复操作。由于 Softmax(·) 在输入的行维度上对同一个平移具有不变性，因此有以下等式：

Softmax⁡(��⊤��)=Softmax⁡(��2�′�′⊤+1��⊤�⊤��)

等式推导出从原始序列中学习到的注意力的直接表达式。除了平稳化序列�′中的当前�′,�′外，该表达式还需要序列平稳化消除的非平稳信息��,��,�。

2.2.2 De-stationary Attention

为了恢复对非平稳序列的原始注意力，本文试图将消失的非平稳信息带回其计算中。关键是近似positive scaling scalar �=��2 和shifting vector Δ=��∈��×1 ，它们被定义为去平稳因子。由于深度模型几乎不具备严格的线性特性，除了努力估计和利用实际因素外，本文尝试通过简单但有效的多层感知器层直接从非平稳�、�和�的统计数据中学习去平稳因素。由于只能从当前的�′,�′中发现有限的非平稳信息，补偿非平稳性的唯一合理来源是未经归一化的原始�。因此，本文应用多层感知器作为projector，从非平稳 �的统计值、μ�、σ�中分别学习不稳定因素、�、Δ。 De-stationary Attention 计算如下：

log⁡�=MLP⁡(��,�),�=MLP⁡(��,�)Attn⁡(�′,�′,�′,�,�)=Softmax⁡(��′�′+1�⊤��)�′

2.2.3 Overall architecture

继之前在时间序列预测中使用 Transformers之后，本文采用标准的编码器-解码器结构，其中编码器是从过去的观察中提取信息，解码器是聚合过去的信息并从简单的初始化中改进预测。

3.实验和结果

本文进行了大量实验来评估Nonstationary Transformer 在六个真实世界时间序列预测基准上的性能，并进一步验证所提出的框架在各种主流 Transformer 变体上的通用性。

数据集 以下是数据集的描述： (1) Electricity记录了 2012 年至 2014 年 321 个客户每小时的用电量。 (2)ETT包含了2016年7月至2018年7月电力变压器采集的石油停运因素和电力负荷的时间序列。ETTm1/ETTm2每15分钟记录一次，ETTh1/ETTh2每小时记录一次。 (3) Exchange 收集了 8 个国家从 1990 年到 2016 年每日汇率的面板数据。 (4) ILI 收集了一周内流感样疾病患者占总患者的比例，报告美国疾病控制和预防中心从 2002 年到 2021 年每周一次。(5) 交通包含从 2015 年 1 月到 2016 年 12 月旧金山湾区高速公路上的 862 个传感器测量的每小时道路占用率。(6) 天气包括 2020 年马克斯普朗克生物地球化学研究所气象站每 10 分钟收集的 21 个天气指标的气象时间序列。

特别是，本文采用增强迪克-富勒 (ADF) 检验统计量作为度量来定量测量平稳性程度。较小的 ADF 检验统计量表示较高程度的平稳性，这意味着分布更稳定。表 1 总结了数据集的总体统计数据，并按平稳性升序排列。根据时间顺序将每个数据集划分为训练、验证和测试子集。 ETT 数据集的分割比为 6:2:2，其他数据集的分割比为 7:1:2。

Baselines 本文在多变量和单变量设置中评估由Nonstationary Transformer框架配备的原生Transformer，以证明其有效性。对于多元预测，包括六个最先进的深度预测模型：Autoformer、Pyraformer、Informer 、LogTrans 、Reformer和 LSTNet。对于单变量预测，包括七个竞争基线：N-HiTS、N-BEATS 、Autoformer、Pyraformer 、Informer 、Reformer 和 ARIMA。此外，在 Transformer 的规范和有效变体上采用了所提出的框架：Transformer、Informer 、Reformer 和 Autoformer ，以验证本文框架的通用性。

3.1 Main Results

Forecasting results 至于多变量预测结果，配备本文框架的普通 Transformer 在所有基准和预测长度上始终达到最先进的性能。值得注意的是，Non-stationary Transformer 在以高非平稳性为特征的数据集上的表现优于其他深度模型：在 336 的预测长度下，在 Exchange 上实现了 17% 的 MSE 减少（0.509 → 0.421），在 ILI 上实现了 25%（2.669 → 2.010）与之前的最先进结果相比，这表明深度模型的潜力仍然受限于非平稳数据。在表 3 中列出了两个具有不同平稳性的典型数据集的单变量结果。非平稳 Transformer 仍然实现了显着的预测性能。

Framework generality 作者将本文的框架应用于四个主流 Transformer 并计算每个模型的性能提升。本文的方法不断提高不同模型的预测能力。总体而言，它在 Transformer 上实现了平均 49.43% 的提升，在 Informer 上提升了 47.34%，在 Reformer 上提升了 46.89%，在 Autoformer 上提升了 10.57%，每一个都超过了之前的 state-of-the-art。与模型的原生块相比，应用作者的框架几乎没有增加任何参数和计算，因此可以保留它们的计算复杂性。它验证了 Non-stationary Transformer 是一种有效且轻量级的框架，可以广泛应用于基于 Transformer 的模型并增强其非平稳可预测性以实现最先进的性能。

3.2 Ablation Study

Quality evaluation 为了探索每个模块在提出的框架中的作用，本文比较了三种模型对 ETTm2 的预测结果：vanilla Transformer、只有 Series Stationarization 的 Transformer 和 Non-stationary Transformer。在图3中发现这两个模块从不同的角度加强了Transformer的非平稳预测能力。

Quantitative performance 除了上述案例研究，本文还提供了与平稳化方法的定量预测性能比较：深度方法RevIN和序列平稳化。如表 5 所示，RevIN 和 Series Stationarization 辅助的预测结果基本相同，这表明本文框架中的无参数规范化版本足以使时间序列平稳化。

3.3 Model Analysis

Over-stationarization problem 为了从统计角度验证过度平稳化问题，本文分别用上述方法训练Transformer，将所有预测的时间序列按时间顺序排列，并将平稳度与ground truth进行比较（图4）。虽然仅配备平稳化方法的模型往往会输出具有意想不到的高度平稳性的序列，但 De-stationary Attention 辅助的结果接近实际值。此外，随着序列平稳性程度的增加，过度平稳化问题变得更加显着。平稳程度的巨大差异可以解释只有平稳化的 Transformer 性能较差的原因。并且它也证明了 De-stationary Attention 作为一种内部改造可以缓解过度平稳化。

4.结论与展望

本文从平稳性的角度研究时间序列预测。与以往简单地减弱非平稳性导致过度平稳化的研究不同，提出了一种有效的方法来增加序列平稳性并更新内部机制以重新合并非平稳信息，从而同时提高数据可预测性和模型预测能力。在实验上，本文方法在六个真实世界的基准测试中显示出极大的通用性和性能。并提供了详细的推导和消融，以证明Nonstationary Transformers 框架中每个组件的有效性。未来，作者将探索一种与模型无关的解决方案来解决过度平稳化问题。

时序数据中经常存在着分布漂移问题，除了本篇工作外也有Revin、DishTS等也值得学习和借鉴。我们在构建时序模型时，其作为即插即用的模块可直接添加至模型中。

hellozhxy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2022|非平稳时间序列的Transformer预测框架

因此，如何减弱时间序列的非平稳性以获得更好的可预测性，同时缓解模型能力的过度平稳化问题是进一步提高预测性能的关键问题。值得注意的是，Non-stationary Transformer 在以高非平稳性为特征的数据集上的表现优于其他深度模型：在 336 的预测长度下，在 Exchange 上实现了 17% 的 MSE 减少（0.509 → 0.421），在 ILI 上实现了 25%（2.669 → 2.010）与之前的最先进结果相比，这表明深度模型的潜力仍然受限于非平稳数据。
复制链接

扫一扫