原文标题《CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING》
动机
基于Transformer的模型将同一时间步所有维度的数据点嵌入到一个特征向量中,试图捕捉不同时间步之间的依赖关系。这样就很好地捕捉到了跨时间依赖关系,但跨维度依赖关系没有被捕捉到。
贡献
1 )深入研究了现有的基于Transformer的MTS预测模型,发现跨维度依赖关系没有得到很好的利用:这些模型只是简单地将特定时间步的所有维度的数据点嵌入到单个向量中,侧重于捕捉不同时间步之间的跨时间依赖关系。如果没有充分、明确地挖掘和利用跨维度依存关系,实证表明其预测能力有限。
2)开发了Crossformer,一个利用跨维度依赖关系的Transformer模型用于MTS预测。这是为数不多的明确探索和利用跨维度依赖关系进行MTS预测的变压器模型(也许是我们所知的第一个)。
3 )在六个真实数据集上的大量实验结果表明了Crossformer相对于现有技术的有效性。
方法
DIMENSION-SEGMENT-WISE EMBEDDING
Transformer最初是为NLP开发的,其中每个嵌入向量代表一个信息词。对于MTS而言,仅一步的单一数值提供的信息很少。在时域上会与附近的值形成信息模式,如下图。可以看出,注意力值具有分段的趋势,即相近的数据点具有相似的注意力权重。
基于此作者提出一个新的嵌入方式,嵌入向量应当表示为单维的一系列片段
公式如下:
将这些
h
i
,
d
h_{i,d}
hi,d拼成一个二维向量。通过这种方式显示地捕获变量间依赖。
TWO-STAGE ATTENTION LAYER
对于2D的向量组可以参考对于视觉图片的transformer方法,但这里会有两个问题:
1 )与高度和宽度轴可互换的图像不同,MTS的时间和尺寸轴具有不同的含义,因此应该区别对待。
2)直接应用自注意力会导致计算过于复杂
因此,作者提出了两阶段注意力( TSA )层来捕捉二维向量数组之间的跨时间和跨维度依赖
Cross-Time Stage
Z
:
,
d
Z_{:,d}
Z:,d代表维度d下的所有时间步,那么维度下的跨时间依赖则表示成:
Cross-Dimension Stage
作者采用一种路由的方式,进行自注意力。为每个时间步i设置了一个固定数量的可学习向量( c < < D)作为路由器,即作为自注意力中的Query。将所有维度的向量作为Key和Value来聚合来自所有维度的消息。
HIERARCHICAL ENCODER-DECODER
一个分层编码器-解码器,实际多尺度。
操作如下:
Encoder:
Decoder:
预测部分:
实验
消融实验: