Stacked Latent Attention for Multimodal Reasoning [CVPR 2018]

最新推荐文章于 2022-07-28 09:12:49 发布

xia.sir

最新推荐文章于 2022-07-28 09:12:49 发布

阅读量1k

点赞数 2

文章标签：注意力机制 attention model

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41595062/article/details/80976776

版权

论文链接甩出来：点击打开链接

堆叠潜在注意力模型：个人感觉这是一篇传统Attention 和残差网络的拼接。。。

一. Standard Attention Mechanism

Attention 实际上就是一个加权求和的过程。搞图像的就突出图像特征而已。Attention map就是一张权值分布图，与feature map“点积”就是加权过程，关键是怎么产生这张Attention map。

本文将input image分解成K个特征向量v={v1...vk}，h是隐藏状态，可以通过卷积网络提取，这里ei=fatt(vi,h)就是一个打分函数。

Wv和Wh是对齐操作，将vi和h的特征对应上，再通过Wu计算得分。经过两个卷积，进行特征信息压缩，红色S就是softmax

×是加权求和操作，得到Content vector作为Attention Model 的输出。

二.Stacked Attention Model

老模型缺少空间推理能力(字面意思)，缺少空间信息。堆叠多个注意力模型却有梯度消失问题。就是一个AttentionModel的输出作为下一个AttentionModel的输入。

将前一阶段增强后的特征图z(1)=h(2)下一阶段的输入。t阶段的输出表示为

s代表空间推理能力，也就是包含空间位置信息。作者提出上述结构的三个缺点。1)机械的将先前的关注内容传到下一部分，使得潜在的位置信息s没能传到下一阶段，这是信息瓶颈。2）第一次就关注了错误的内容，之后只能是越来越偏离目标，严重影响性能。3）所有的激活函数和softmax在同一条路会造成梯度消失。

三.Stacked Latent Attention Model

为了解决这三个问题提出SLA模型

G 代表中间的绿色框中的内容。

很明显的一个变化是softmax不在主路径上了，很好的避免了梯度消失。而且更有利于利用空间位置信息s。最后的最后有一个池化层，是对信息的进一步压缩，以向量的形式输出。

可见，每个模块都引入上一阶段的结果z(t-1)作为SLA的输入，那么可以初始化z(0)作为第一个模块的输入。令z(0)为输入图像v与位置偏置bpos的级联。由于作者是做视觉问答的，机器视觉与自然语言处理的结合。我就是个做人体姿态估计的，所以本文的方法不适合我，那实验阶段就用高斯函数随机初始化bpos？Wu参见传统注意力机制。

最后的双流叠加注意力网络类似。

-----------------------------------------------------------------------------------------------------------------

个人理解，欢迎批评指正。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Stacked Latent Attention for Multimodal Reasoning [CVPR 2018]

论文链接甩出来：点击打开链接堆叠潜在注意力模型：个人感觉这是一篇传统Attention 和残差网络的拼接。。。一. Standard Attention Mechanism Attention 实际上就是一个加权求和的过程。搞图像的就突出图像特征而已。Attention map就是一张权值分布图，与feature map“点积”就是加权过程，关键是怎么产生这张Attention map。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。