Self-Attention ConvLSTM学习总结

最新推荐文章于 2022-12-21 22:49:02 发布

时空序列小白

最新推荐文章于 2022-12-21 22:49:02 发布

阅读量775

点赞数 2

文章标签：学习自然语言处理 lstm nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40474914/article/details/127988902

版权

思想：ConvLSTM加上了一个沿时间步传播的M，而该M是由ConvLSTM中的隐藏状态H与上一时刻的M经过注意力运算得来的。

Self-Attention ConvLSTM

方法：它的框架如下，只不过每层沿时间步传播除了C和H，多了一个M，但是与PredRNN中M贯穿每一时间的每一层的传播方式不同。

下面给出M是怎么得来的，如图为SAM模块，从出入和输出看，输出Mt和Ht帽由Mt-1和Ht进行计算得来，其中Ht是ConvLSTM的输出。

我将尝试解读作者设计SAM的思路，如图，两个隐态H,M分别利用1x1卷积核生成Qh,Kh,Vh,Km,Vm。两个隐态的K与同一个Q分别做矩阵乘法，经Softmax获得相似度得分再分别乘以该隐态的V后分别得到Zh和Zm，到这步只是计算了M对H 的相似程度，而H也是计算了自身的相似度。

之后Zh和Zm融合后用残差链接提前融合了Ht，而Mt-1的残差融合放到了比较靠后的位置。此时我认为此时在融合的信息中来自H的占比是要比来自M的占比大的。

而后分为三岔，下方两岔为M的运算，先经过tanh将值归为-1-1之间后与同源但经sigmoid归为0-1后的值相乘，而该sigmoid又与经过残差连接的M相乘后与之间信息相加最后得到新的M。（M在最后最接近M输出的地方残差连接为了防止M在之前运算过程中信息丢失过多，要保持M信息流的重要占比，而往其中加入信息为非主体。同理输出的H也是在其接近输出的地方进行残差连接保证输出H为主体，或者说信息review）

从结果来看，SAM的输出Mt和Ht帽分别是由Mt-1和Ht作为主要部分，而后分别往里面加上融合了自注意力的部分

作者说提出的SAM模块提升了模型捕获全局信息的能力让我百思不得其解，可能是因为在每个单元内都有一个M来记录部分关于H的信息，相较于PredRNN中的M其更新次数较少，梯度更容易保留。

时空序列小白

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
Self-Attention ConvLSTM学习总结

在学习时空序列预测论文时的一些小的思考，可能这些思考并不是很成熟，也并不专业，如有不对请多指正。
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。