md,其他论文多学学这篇论文,写的多规整
文章目录
文章信息
- 模型: Crossformer
- 关键词:分段;跨时间;跨变量
- 作者:Yunhao Zhang, Junchi Yan
- 机构: 上海交通大学
- 发表情况:ICLR 2023 notable top
5%
- 网址:Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting
前言
Crossformer的主要思想:数据分段将输入序列转变为二维向量数组;使用两阶段注意力层来高效地捕获跨变量和跨时间的依赖关系;采用分层编码器-解码器结构,在不同层次(尺度)上利用信息进行预测。
在本文中,跨维度(cross-dimension)指的是跨变量
一、网络结构
1. Dimension-Segment-Wise (DSW) embedding
可视化对比(分割的作用)
图(a)中,我们可以看到,注意力值有分割的趋势,即相近的数据点具有相似的注意力权重。图(b)显示的是先前的Transformer未显式建模跨变量依赖关系且计算的是逐点的注意力,而一个时间步只能提供少量的信息。
基于以上两点,作者认为嵌入向量应该表示单个维度的序列段(图1 (c)),而不是在单个时间步中所有维度的值(图1 (b))
实现
分段的公式如下:
其中嵌入的输入为: x ∈ R T × D \mathbf{x}\in \mathbb{R}^{T \times D} x∈RT×D ,回望窗口为 T T T个时间步,变量个数为 D D D; x i , d ( s ) ∈ R L s e g \mathbf{x}_{i, d}^{(s)} \in \mathbb{R}^{L_{s e g}} xi,d(s)∈RLseg 是第 d d d 个变量长度为 L seg L_{\text {seg }} Lseg 的第 i i i 个分段。
然后按照以下公式单独对每个变量( d d d)的每段( i i i)进行线性映射+位置编码:
h i , d = E x i , d ( s )