NeurIPS 是全球最负盛名的 AI 学术会议,全称是 Neural Information Processing Systems(神经信息处理系统大会)。该会议固定在每年的12月举办,主题包括深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。2022年总共有10,411份投稿,接受了2672份,总的接受率为25.6%
Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long
School of Software, BNRist, Tsinghua University, China
1.背景和问题
Transformers 由于其全局范围建模能力在时间序列预测方面起到巨大作用。 然而,它们的性能可能会在联合分布随时间变化的非平稳真实世界数据上严重退化。以往的研究主要采用平稳化来减弱原始序列的非平稳性,以获得更好的可预测性。 但是,平滑了固有非平稳性的平稳序列对现实世界的突发事件预测的指导意义不大。这个问题在本文中称为过度平稳化,会带来意想不到的副作用,使 Transformer 无法捕获重要的时间依赖性,限制模型的预测能力,甚至导致模型生成与 ground truth 存在巨大非平稳偏差的输出。因此,如何减弱时间序列的非平稳性以获得更好的可预测性,同时缓解模型能力的过度平稳化问题是进一步提高预测性能的关键问题。
本文探讨了平稳化在时间序列预测中的作用,并提出了Non-stationary Transformers 作为通用框架,它赋予了 Transformer及其高效变体对现实世界时间序列的强大预测能力。提出的框架涉及两个相互依赖的模块:Series Stationarization以增加非平稳序列的可预测性和De-stationary Attention以减轻过度平稳化。从技术上讲,Series Stationarization 采用了一种简单但有效的归一化策略,无需额外参数即可统一每个序列的关键统计数据。 而De-stationary Attention近似于非平稳数据的attention 并补偿原始序列的内在非平稳性。受益于上述设计,Non-stationary Transformer 可以利用平稳序列的强大可预测性和从原始非平稳数据中发现的关键时间依赖性。
2.方法介绍
Nonstationary Transformers 涉及两个互补部分:Series Stationarization 以增强时间序列的平稳性以获得更好的可预测性,以及 De-stationary Attention 以重新合并原始序列的非平稳信息以防止过度平稳化。 在这些设计的支持下,Non-stationary Transformers 可以同时提高数据的可预测性和模型能力。
2.1 Series Stationarization
非平稳时间序列使深度模型的预测任务变