读论文《Crossformer：利用跨维度依赖进行多变量时间序列预测的Transform》

最新推荐文章于 2024-08-22 08:34:50 发布

vzvzvzv

最新推荐文章于 2024-08-22 08:34:50 发布

阅读量1.4k

点赞数

文章标签：深度学习人工智能自然语言处理

本文链接：https://blog.csdn.net/vzvzvzv/article/details/131376526

版权

原文标题《CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING》

动机

基于Transformer的模型将同一时间步所有维度的数据点嵌入到一个特征向量中，试图捕捉不同时间步之间的依赖关系。这样就很好地捕捉到了跨时间依赖关系，但跨维度依赖关系没有被捕捉到。在这里插入图片描述

贡献

1 )深入研究了现有的基于Transformer的MTS预测模型，发现跨维度依赖关系没有得到很好的利用：这些模型只是简单地将特定时间步的所有维度的数据点嵌入到单个向量中，侧重于捕捉不同时间步之间的跨时间依赖关系。如果没有充分、明确地挖掘和利用跨维度依存关系，实证表明其预测能力有限。
2）开发了Crossformer，一个利用跨维度依赖关系的Transformer模型用于MTS预测。这是为数不多的明确探索和利用跨维度依赖关系进行MTS预测的变压器模型(也许是我们所知的第一个)。
3 )在六个真实数据集上的大量实验结果表明了Crossformer相对于现有技术的有效性。

方法

DIMENSION-SEGMENT-WISE EMBEDDING

Transformer最初是为NLP开发的，其中每个嵌入向量代表一个信息词。对于MTS而言，仅一步的单一数值提供的信息很少。在时域上会与附近的值形成信息模式，如下图。可以看出，注意力值具有分段的趋势，即相近的数据点具有相似的注意力权重。在这里插入图片描述
基于此作者提出一个新的嵌入方式，嵌入向量应当表示为单维的一系列片段

公式如下：

将这些 $h_{i,d}$ 拼成一个二维向量。通过这种方式显示地捕获变量间依赖。

TWO-STAGE ATTENTION LAYER

对于2D的向量组可以参考对于视觉图片的transformer方法，但这里会有两个问题：
1 )与高度和宽度轴可互换的图像不同，MTS的时间和尺寸轴具有不同的含义，因此应该区别对待。
2）直接应用自注意力会导致计算过于复杂
因此，作者提出了两阶段注意力( TSA )层来捕捉二维向量数组之间的跨时间和跨维度依赖
在这里插入图片描述