Self-Attention ConvLSTM学习总结

 思想:ConvLSTM加上了一个沿时间步传播的M,而该M是由ConvLSTM中的隐藏状态H与上一时刻的M经过注意力运算得来的。

Self-Attention ConvLSTM

 方法:它的框架如下,只不过每层沿时间步传播除了C和H,多了一个M,但是与PredRNN中M贯穿每一时间的每一层的传播方式不同。

 下面给出M是怎么得来的,如图为SAM模块,从出入和输出看,输出Mt和Ht帽由Mt-1和Ht进行计算得来,其中Ht是ConvLSTM的输出。

我将尝试解读作者设计SAM的思路,如图,两个隐态H,M分别利用1x1卷积核生成Qh,Kh,Vh,Km,Vm。 两个隐态的K与同一个Q分别做矩阵乘法,经Softmax获得相似度得分再分别乘以该隐态的V后分别得到Zh和Zm,到这步只是计算了M对H 的相似程度,而H也是计算了自身的相似度。

之后Zh和Zm融合后用残差链接提前融合了Ht,而Mt-1的残差融合放到了比较靠后的位置。此时我认为此时在融合的信息中来自H的占比是要比来自M的占比大的。

而后分为三岔,下方两岔为M的运算,先经过tanh将值归为-1-1之间后与同源但经sigmoid归为0-1后的值相乘,而该sigmoid又与经过残差连接的M相乘后与之间信息相加最后得到新的M。(M在最后最接近M输出的地方残差连接为了防止M在之前运算过程中信息丢失过多,要保持M信息流的重要占比,而往其中加入信息为非主体。同理输出的H也是在其接近输出的地方进行残差连接保证输出H为主体,或者说信息review)

从结果来看,SAM的输出Mt和Ht帽分别是由Mt-1和Ht作为主要部分,而后分别往里面加上融合了自注意力的部分

作者说提出的SAM模块提升了模型捕获全局信息的能力让我百思不得其解,可能是因为在每个单元内都有一个M来记录部分关于H的信息,相较于PredRNN中的M其更新次数较少,梯度更容易保留。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值