论文笔记 Triformer: Triangular, Variable-Specific Attentions for Long SequenceMultivariate Time Series

1 abstract & introduction

  • 长期时间序列预测(long term multivariate time-series forecasting)、
    • 相比于RNN或者TCN,attention效果更好
  • attention在捕获长期依赖关系中很常用,但是会存在两个问题
    • 传统自注意力是O(n^2)的复杂度(n是时间序列长度)——>效率欠佳
    • 不同变量的时间序列通常由不同的时序动力,而现有的模型一般对这些变量使用统一的QKV投影函数(variable-agnoistic,对变量不感知的)——>精确度欠佳
  • 为了解决上述的两个问题,这篇paper提出了Triformer
    • 线性复杂度
      • patch attention+三角层次结构
      • ——>O(n)的复杂度
    • 每个变量有自己的参数
      • 对不同变量,有属于自己的、不同的参数
      • 同时不用以效率/内存为代价

        如果每个变量的参数都一样的话(比如这里共享投影矩阵W_Q,W_K,W_V),那么学到的可能只是平均pattern。

        Triformer对每个变量有一套自己的投影矩阵,同时经过特殊设计,逐变量的矩阵 参数量不大。

 2 related works

2.1  短期预测和长期预测

  • 短期预测(12~48时间片之后),使用RNN/TCN是OK的,但是变成长期预测之后,RNN和TCN都只有很有限的能力,因为他们得靠中间的步骤一点一点将时序信息传过去 。——>RNN和TCN不太适用于长期预测。
  • 对长期预测,self-attention在准确度上效果突出,但是在时间和空间上是O(n^2)的复杂度
    • 有一些paper致力于找到稀疏的attention
      • LogTrans(2019):O(H(logH)^2)
      • Informer(2021):O(HlogH)
    • Transformer会保持输出的维度和输入一致
      • 在迭代多层的attention的时候,上述方法会使用一个额外的池化层,来帮助将输入的尺寸缩小到和下一层attention需要的一致
      • ——>本篇论文提出来的方法可以自己缩小每一层元素的数量,而不用池化操作

2.1.1 加池化的self-attention和本文的PA的对比

 PA在不用池化的情况下,每一层可以缩小1/S倍

2.2 Variable-agnostic vs. variable-specifific modeling

  • 大部分相关的工作是variable agnostic的
    • 也就是各个变量的参数是一样的
      • 比如RNN的权重矩阵,TCN的卷积核,attention中的投影矩阵。。。

 

3 方法部分

3.1 时间序列标记

这里的一个多变量时间序列由N个变量组成。每一个时刻的观测为x_t \in R^N.

时间序列预测的意思是,通过过去H个时间片的信息,预测将来F个时间片的数据

 3.2 Triformer

 注:我觉得这边Wk和Wv应该有上标(i),且维度应该是s*d

 3.3 Variable-Specific Modeling

        最简单的实现方法,就是给每一个变量d*d的投影矩阵Wk和Wv,但是这样的话,需要2Nd^2个参数。

        

这篇论文使用了矩阵分解的思路:

 

 注:这里我还是不太理解为啥Wk和Wv是d*d维度,我认为是s*d 

4 实验部分

4.1 实验配置

4.1.1 数据集

ETTh1,ETTm1

每15min观察一次;每个观察有6个特征

(6变量的时间序列)

zhouhaoyi/ETDataset: The Electricity Transformer dataset is collected to support the further investigation on the long sequence forecasting problem. (github.com)

ECM

321个变量的时间序列,每小时采样一次

UCI Machine Learning Repository: ElectricityLoadDiagrams20112014 Data Set

weather12元素的时间序列,每小时记录一次

4.2 实验分析

4.2.1 预测结果

  • 相比于其他三个variable-agnoistic的、基于attention的baseline,AGCRN效果最好 
    • ——>variable-specific 模型的好处

4.2.2 更长的序列的预测结果

把上面最优和次优的baseline拿出来进行比较

 OOM——out of memory

4.3 ablation study

4.3.1 消融实验

w/o 表示without

 

4.3.2 piece-by-piece ablation study

PA单层patch attention
PA+TS多层patch attention

PA+vSM

单层patch attention+3.3小节的VSM
Triformer相当于PA+TS+VSM
PA-RC没有recurrent connection的单层patch attention

4.4 超参数敏感度 

4.4.1 patch Size 大小S

(a,b,c)表示三层各自的patch大小

4.4.2 hidden representation 大小d

 

4.4.3 VSM中memory vector的维度m

4.4.4 VSM中间矩阵的大小a

 

 4.5 学到的内容的可视化

对VSM中的M^{(i)}进行可视化,选择了8个时间序列,进行t-SNE,将每个M^{(i)} 压缩至两维

 

 可以看到变量被分成了三类,每一类有接近的feature

 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值