论文地址:https://arxiv.org/pdf/2302.04501.pdf
代码地址:https://github.com/plumprc/MTS-Mixers
一、简介
多元时间序列预测已广泛应用于各种实际场景。最近,由于捕获了远程依赖关系,基于 Transformer 的模型在预测任务中显示出了巨大的潜力。然而,最近在视觉和NLP领域的研究表明,注意力模块的作用并不明确。
本文研究了注意力机制对时间序列预测性能的贡献和不足。具体来说,发现(1)注意力对于捕获时间依赖性不是必需的,(2)捕获时间和通道交互中的冗余会影响预测性能,以及(3)对输入和预测序列之间的映射建模很重要。为此,提出了 MTS-Mixers,它使用两个分解模块来捕获时间特征和通道间依赖性。
二、Transformer的探讨
尽管这些基于Transformer的模型在长期时间序列预测任务中表现良好,但仍有一些问题需要解决。
-
时间特征的提取是时序预测的关键,而注意力机制如何实现这种信息提取还没有被合理得到解释。一个简单而有效的基线DLinear质疑基于Transformer的模型是否对时间序列预测有效。
-
基于Transformer的模型严重依赖于额外的位置或特定于日期的编码来保证注意力得分的顺序,这可能会干扰对时间特征的捕获。
-
现有的基于Transformer的方法几乎集中在如何降低注意计算的复杂度上,并通过适当的选择策略设计了各种稀疏注意机制,然而,这些方法有大量Attention以外的额外操作,这使得实际运行时间非常长。
为了验证注意力机制在时间序列预测中的有效性,在ETTh1上进行了一组实验。图(a)提供了对Transformer进行修改的预测结果。直接用傅里叶变换替换注意层保持了预测性能,而去除交叉注意显著提高了预测性能。这些结果表明,时间序列预测任务的注意机制可能并不那么有效。图(b)显示,与没有额外位置或特定日期编码的基于注意力的模型相比,应用简单的傅里叶变换可以实现相同的,甚至更好的预测性能。此外,单独捕获时间和通道依赖关系可能会带来额外的改进。
二、多元时间序列的冗余性
由于采样率和传感器数量的差异,当前不同场景的多元时间序列数据往往数据形式差异较大,冗余严重。
如下图,在时间维度上,对一个序列进行下采样,生成的新序列和原始序列保持着相似的趋势性、季节性。
而在channel维度上,多元序列中不同的子序列也展示出相似的pattern。这些冗余性都表明,大多数多元时间序列都存在低秩性,即只用一小部分数据就可以表示出近似完整的原始矩阵。利用这个性质,可以简化多元时间序列的建模。
三、MTS-Mixers
整体计算逻辑可以表示为如下形式:时间维度信息提取+空间维度信息提取+输出映射。