论文笔记：CROSSFORMER: TRANSFORMER UTILIZING CROSSDIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FOREC

最新推荐文章于 2024-07-08 18:48:12 发布

UQI-LIUWJ

最新推荐文章于 2024-07-08 18:48:12 发布

阅读量255

点赞数

分类专栏：论文笔记文章标签：论文阅读 transformer 深度学习

本文链接：https://blog.csdn.net/qq_40206371/article/details/134265644

版权

272 篇文章 65 订阅

订阅专栏

ICLR 2023

1 intro

之前用Transformer预测时间序列的工作，大多集中在建模时间维度的关系上。
- 利用时间维度的自注意力机制，建立不同时间步之间的关系
而在多元时间序列预测中，各个变量之间的关系也很重要。
- 之前的模型，主要是将每个时间步的多元变量压缩成一个embedding，再进行时间维度的attention。
  - - 这种方法的问题是缺少对不同变量之间关系的建模，直接每个时间步融合的方式显然太粗糙了
同时论文通过观察时间序列的attention map，发现时间序列数据的attention feature是分块的
- ——>将时间维度切成patch，而不是一个一个时刻，可能是更好的解决方法

对Transformer在多元时间序列预测的应用中进行了改造
- 将多元时间序列转换成patch
  - 切patch和同年的论文笔记：Are Transformers Effective for Time Series Forecasting?-CSDN博客类似
- 增加了变量维度之间的attention

两阶段的attention：第一阶段在时间维度进行attention，第二阶段在多变量之间进行attention
- 输入先过一层时间维度attention，独立的进行每个序列时序上的建模
- 然后再输入到一层空间维度attention，对齐不同变量各个时间步的编码

时间序列的每一个dimension分别进行 multi-head attention（和别的work没有太大的区别）

基于上面提到的两阶段attention网络，对输入进行了不同尺寸的patch生成
- 序列从上到下被分成了2个、4个、8个等不同的patch，每层的每个patch所包含的窗口长度不同
- 模型的输入最开始是细粒度patch，随着层数增加逐渐聚合成更粗粒度的patch
  - ——>让模型从不同的粒度提取信息

一个TSA就是一个时间+空间attention层

关注