目录
1. Abstract
- 为提取空间特征的全局和局部依赖性,本文向ConvLSTM引入了一个新的自注意力机制(self-attention mechanism)
- 子注意力记忆模块(self-attention memory , SAM) 能在时空域记住那些具有长期依赖性的特征
2. Introduction
本文的创新点/贡献在于:
- 提出一个新的基于ConvLSTM的变体模型用于时空预测,命名为SA-ConvLSTM,特点是能很好捕获长程空间依赖性。
- 设计了一个基于记忆的自相关模块(memory-based self-attention module, SAM),该模块用于在预测中记住全局的时空依赖性。
- 为验证模型(1)使用MovingMNIST 和 KTH 数据集进行多框架预测;(2)使用TaxiBJ数。据集预测交通流量。本文模型优势是参数更少、效率更高。
写作思路:
- 首段:(1)交待时空预测研究的重要性、现有研究(很简要),说明值得研究;(2)时空预测具有复杂动态性,时空领域都表现出依赖性。
- 第二段:(1)ConvLSTM 效果不错;(2)存在问题1-长程依赖可以通过堆叠的卷积层捕获,但有效感受野要比理论上的感受野小很多;(3)存在问题2-离特殊位置较远的特征,要体现位置的影响 实现前馈和反向传播,就要经过很多层,这样一来训练时的优化就很困难;(4)现有的解决办法只能提供稀疏的依赖关系,估计的是局部感受野;(5)因此现有问题就是如何让ConvLSTM捕获到长程依赖性。
- 第三段:(1)认为自注意力模块相对于卷积操作,更擅于获得全局空间上下文信息(注意:这里只是说普通的self-attention module),因此本文使用额外的记忆单元 M \mathcal{M} M ;(2) M \mathcal{M} M 也能像LSTM 通过门控机制捕获长程的时间依赖性。
3. Method
注:原文比较简略,下文按照自己的理解重新组织了顺序
3.1 模型整体结构
这篇文章创新点就是加了一个基于记忆的自相关模块(memory-based self-attention module, SAM),这个模块是接在ConvLSTM模型的最后的,如图浅绿色部分(如果没有它及其输出,这个图就是ConvLSTM模型图,或者说是LSTM模型图):
3.2 SAM模块
这个模块看上去好复杂,基于文章描述 它可以分为三个小部分,我在图上用不同色块标注出来(强迫症不允许色块对不齐,是不是很整齐hh):
- 黄色区域:特征聚合,文章中的Feature Aggregation 部分
- 蓝色区域:记忆更新,文章中的Memory Updating 部分
- 绿色区域:输出,文章中的Output 部分
3.2.1 Feature Aggregation 特征聚合
整个黄色区域可分为两部分:
- 上半部分(黄色):输入是当前时刻特征 H t \mathcal{H_t} Ht,经历一个普通的self-attention 模块,得到 Z h Z_h Zh。
- 下半部分(灰色):输入是上一时刻记忆 M t − 1 \mathcal{M}_{t-1} Mt−1,也是经历一个self-attention 模块。不同的是,此处用的query Q Q Q 是当前时刻计算得到的,key K K K 是上一时刻 M t − 1 \mathcal{M}_{t-1} Mt−1 计算得到的,通过 e = Q h T K h ∈ R N × N \mathbf{e}=\mathbf{Q}_{h}^{T} \mathbf{K}_{h} \in \mathbb{R}^{N \times N} e=Q