论文笔记《Self-Attention ConvLSTM for Spatiotemporal Prediction》

最新推荐文章于 2025-04-11 18:22:16 发布

mintminty

最新推荐文章于 2025-04-11 18:22:16 发布

阅读量5.2k

点赞数 10

分类专栏：论文笔记

本文链接：https://blog.csdn.net/mintminty/article/details/109152610

版权

1. Abstract

本文的创新点/贡献在于：

写作思路：

首段：（1）交待时空预测研究的重要性、现有研究（很简要），说明值得研究；（2）时空预测具有复杂动态性，时空领域都表现出依赖性。
第二段：（1）ConvLSTM 效果不错；（2）存在问题1-长程依赖可以通过堆叠的卷积层捕获，但有效感受野要比理论上的感受野小很多；（3）存在问题2-离特殊位置较远的特征，要体现位置的影响实现前馈和反向传播，就要经过很多层，这样一来训练时的优化就很困难；（4）现有的解决办法只能提供稀疏的依赖关系，估计的是局部感受野；（5）因此现有问题就是如何让ConvLSTM捕获到长程依赖性。
第三段：（1）认为自注意力模块相对于卷积操作，更擅于获得全局空间上下文信息（注意：这里只是说普通的self-attention module），因此本文使用额外的记忆单元 $\mathcal{M}$ ；（2） $\mathcal{M}$ 也能像LSTM 通过门控机制捕获长程的时间依赖性。

注：原文比较简略，下文按照自己的理解重新组织了顺序

这篇文章创新点就是加了一个基于记忆的自相关模块(memory-based self-attention module, SAM)，这个模块是接在ConvLSTM模型的最后的，如图浅绿色部分（如果没有它及其输出，这个图就是ConvLSTM模型图，或者说是LSTM模型图）：
在这里插入图片描述

在这里插入图片描述
这个模块看上去好复杂，基于文章描述它可以分为三个小部分，我在图上用不同色块标注出来（强迫症不允许色块对不齐，是不是很整齐hh）：

在这里插入图片描述
整个黄色区域可分为两部分：

上半部分（黄色）：输入是当前时刻特征 $\mathcal{H_t}$ ，经历一个普通的self-attention 模块，得到 $Z_h$ 。
下半部分（灰色）：输入是上一时刻记忆 $\mathcal{M}_{t-1}$ ，也是经历一个self-attention 模块。不同的是，此处用的query $Q$ 是当前时刻计算得到的，key $K$ 是上一时刻 $\mathcal{M}_{t-1}$ 计算得到的，通过 $\mathbf{e}=\mathbf{Q}_{h}^{T} \mathbf{K}_{h} \in \mathbb{R}^{N \times N}$