【论文阅读】Deep Modular Co-Attention Networks for Visual Question Answering

在这里插入图片描述
Deep Modular Co-Attention Networks for Visual Question Answering

先理解下这个要干嘛:

Visual Question Answering (VQA): 给一个图片和关于这个图片的问题,然后模型输入这两个数据,输出答案。
文章中用得到的数据库VQA-v2里的一个例子:

在这里插入图片描述
把中间的乱七八糟给盖住:
在这里插入图片描述

输入问题:胡子是用什么做的?
输出答案:香蕉
需要设计网络做到同时理解文本内容,抓住关键词,同时理解图片中关键区域的内容:“哪里是胡子”这个问题肯定得先定位出来才能解下来回答“是用什么做的”。

网络既能理解文本又能理解图像,一听就比较神奇,这就涉及到多模态(两种不同的数据类型)了。
文章中认为此类问题的关键是 共同注意力机制 “co-attention”,同时关注文本中的key word以及图片中的key objects。
之前的研究可以利用浅层网络实现 “co-attention”,但是效果一般,加深的网络相比于浅层网络也没什么提升。
文章中针对上面的问题,提出了 Modular Co-Attention Network 网络,这个网络又由MCA layer组合而成。
每个MCA layer都由两个元素组成,1 self-attention 2 guided-attention

MCA layer

Modular Co-Attention Layer
两个基本单元,self-attention unit (SA)和guided-attention unit (GA),本质上是一样的,其实就是受transformer的启发,the scaled dot-product attention ,具体可以参考[1];
这两种单元可以做特定的组合,能够得到三种不同结构的 MCA layer;

self-attention unit (SA)

@

一个输入X;
一个输出Z;
输入 X X X X = [ x 1 ; . . . ; x m ] ∈ 2 R m ⇥ d x {X = [x_1; ...; x_m]}\in2 R^{m⇥d_x} X=[x1;...;xm]2Rmdx
multi-head attention学习到了成对输入元素之间的关系, < x i , x j > <x_i, x_j> <xi,xj>
得到的输出Z,直接会经过FC(4d)-ReLU-Dropout(0.1)- FC(d);

guided-attention unit (GA)

在这里插入图片描述
两个输入X和Y;
一个输出Z;
X ∈ R m ⇥ d x X\in R^{m⇥d_x} XRmdx
$Y = [y_1 ; …; y_n ]\in R^{n⇥d_y} $
Y对X的attention具有指导作用;
GA对X与Y元素之间 < x i , y j > <x_i, y_j> <xi,yj>的组合关系进行建模;

组合

三种组合
![在这里插入图片描述](https://img-blog.csdnimg.cn/0c4070337715427587addc2629b3102e.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3NDc3MTc1,size_16,color_FFFFFF,t_70
不同的输入以及连接方式;

MCAN

两种deep co-attention模型:stacking 和encoder-decoder;

在这里插入图片描述
stacking模型是由多个MCA层串联成的,输出的是最终的图像特征和问题特征。encoder-decoder模型思路来自于Transformer模型,编码器是由L个SA单元来学习问题特征,解码器是用SGA单元,根据问题特征来学习图像特征
图像特征维度 X ∈ R m ⇥ d x X \in R^{m⇥d_x} XRmdx.
文本query是将输入的问题先划分为单词,最多为14个单词,之后再用300维的GloVe word embeddings方法将每一个单词转化为一个向量。词嵌入再输入一个单层的LSTM网络(有个隐藏单元),输出一个query的特征矩阵Y。

参考

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob
Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
co-attention协同注意力机制是一种在多模态任务中应用的机制。它通过同时关注两个不同的输入序列,以便更好地理解它们之间的关系。这种机制有两种实现方式,分别为Parallel co-attention mechanism和Alternating co-attention mechanism。 其中,Parallel co-attention mechanism是将注意力机制应用在两个输入序列之间的每一次互动上。具体来说,它为每个单词在区域上创建一个注意图,并为每个区域在单词上创建一个注意图。这种机制可以循环叠加使用,以进一步增强关注的效果。 Alternating co-attention mechanism则是通过交替地在两个输入序列之间进行注意力计算来实现。它首先计算第一个序列对第二个序列的注意力分布,然后再计算第二个序列对第一个序列的注意力分布。通过交替计算,可以更好地捕捉到两个序列之间的相关性。 总之,co-attention协同注意力机制是一种在多模态任务中应用的机制,它可以帮助我们更好地理解和建模不同输入序列之间的关系。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Co Attention注意力机制实现](https://blog.csdn.net/tszupup/article/details/117292683)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [【论文解析】《 Dense Symmetric Co-Attention for VQA》改进视觉和语言表示的密集对称协同注意力机制的...](https://blog.csdn.net/weixin_44794449/article/details/101753183)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [《Deep Modular Co-Attention Networks for Visual Question Answering论文笔记](https://download.csdn.net/download/weixin_38621897/14035239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值