Stacked Latent Attention for Multimodal Reasoning [CVPR 2018]

论文链接甩出来:点击打开链接

堆叠潜在注意力模型:个人感觉这是一篇传统Attention 和残差网络的拼接。。。

一. Standard Attention Mechanism
    Attention 实际上就是一个加权求和的过程。搞图像的就突出图像特征而已。Attention map就是一张权值分布图,与feature map“点积”就是加权过程,关键是怎么产生这张Attention map。

本文将input image分解成K个特征向量v={v1...vk},h是隐藏状态,可以通过卷积网络提取,这里ei=fatt(vi,h)就是一个打分函数。                               
  

Wv和Wh是对齐操作,将vi和h的特征对应上,再通过Wu计算得分。经过两个卷积,进行特征信息压缩,红色S就是softmax


×是加权求和操作,得到Content vector作为Attention Model 的输出。

二.Stacked Attention Model
老模型缺少空间推理能力(字面意思),缺少空间信息。堆叠多个注意力模型却有梯度消失问题。就是一个AttentionModel的输出作为下一个AttentionModel的输入。
将前一阶段增强后的特征图z(1)=h(2)下一阶段的输入。t阶段的输出表示为


s代表空间推理能力,也就是包含空间位置信息。作者提出上述结构的三个缺点。1)机械的将先前的关注内容传到下一部分,使得潜在的位置信息s没能传到下一阶段,这是信息瓶颈。2)第一次就关注了错误的内容,之后只能是越来越偏离目标,严重影响性能。3)所有的激活函数和softmax在同一条路会造成梯度消失。

三.Stacked Latent Attention Model
    为了解决这三个问题提出SLA模型


代表中间的绿色框中的内容。
很明显的一个变化是softmax不在主路径上了,很好的避免了梯度消失。而且更有利于利用空间位置信息s。最后的最后有一个池化层,是对信息的进一步压缩,以向量的形式输出。

可见,每个模块都引入上一阶段的结果z(t-1)作为SLA的输入,那么可以初始化z(0)作为第一个模块的输入。令z(0)为输入图像v与位置偏置bpos的级联。由于作者是做视觉问答的,机器视觉与自然语言处理的结合。我就是个做人体姿态估计的,所以本文的方法不适合我,那实验阶段就用高斯函数随机初始化bpos?Wu参见传统注意力机制。

最后的双流叠加注意力网络类似。

-----------------------------------------------------------------------------------------------------------------

个人理解,欢迎批评指正。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值