【论文阅读】Deep Modular Co-Attention Networks for Visual Question Answering

最新推荐文章于 2022-08-24 21:57:40 发布

chestnut--

最新推荐文章于 2022-08-24 21:57:40 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/m0_37477175/article/details/109606001

版权

深度学习笔记专栏收录该内容

51 篇文章 14 订阅

订阅专栏

在这里插入图片描述
Deep Modular Co-Attention Networks for Visual Question Answering

先理解下这个要干嘛：

Visual Question Answering (VQA)：给一个图片和关于这个图片的问题，然后模型输入这两个数据，输出答案。
文章中用得到的数据库VQA-v2里的一个例子：

在这里插入图片描述
把中间的乱七八糟给盖住：

输入问题：胡子是用什么做的？
输出答案：香蕉
需要设计网络做到同时理解文本内容，抓住关键词，同时理解图片中关键区域的内容：“哪里是胡子”这个问题肯定得先定位出来才能解下来回答“是用什么做的”。

网络既能理解文本又能理解图像，一听就比较神奇，这就涉及到多模态（两种不同的数据类型）了。
文章中认为此类问题的关键是共同注意力机制 “co-attention”，同时关注文本中的key word以及图片中的key objects。
之前的研究可以利用浅层网络实现 “co-attention”，但是效果一般，加深的网络相比于浅层网络也没什么提升。
文章中针对上面的问题，提出了 Modular Co-Attention Network 网络，这个网络又由MCA layer组合而成。
每个MCA layer都由两个元素组成，1 self-attention 2 guided-attention

MCA layer

Modular Co-Attention Layer
两个基本单元，self-attention unit (SA)和guided-attention unit (GA)，本质上是一样的，其实就是受transformer的启发，the scaled dot-product attention ，具体可以参考[1]；
这两种单元可以做特定的组合，能够得到三种不同结构的 MCA layer；

self-attention unit (SA)

一个输入X;
一个输出Z;
输入 $X$ $[x_1; ...; x_m]}\in2 R^{m⇥d_x}$
multi-head attention学习到了成对输入元素之间的关系， $x_i, x_j>$
得到的输出Z，直接会经过FC(4d)-ReLU-Dropout(0.1)- FC(d)；

guided-attention unit (GA)

在这里插入图片描述
两个输入X和Y;
一个输出Z；
$X\in R^{m⇥d_x}$
$Y = [y_1 ; …; y_n ]\in R^{n⇥d_y} $
Y对X的attention具有指导作用；
GA对X与Y元素之间 $x_i, y_j>$ 的组合关系进行建模；

组合

三种组合
![在这里插入图片描述](https://img-blog.csdnimg.cn/0c4070337715427587addc2629b3102e.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3NDc3MTc1,size_16,color_FFFFFF,t_70
不同的输入以及连接方式；

MCAN

两种deep co-attention模型：stacking 和encoder-decoder；

在这里插入图片描述
stacking模型是由多个MCA层串联成的，输出的是最终的图像特征和问题特征。encoder-decoder模型思路来自于Transformer模型，编码器是由L个SA单元来学习问题特征，解码器是用SGA单元，根据问题特征来学习图像特征。
图像特征维度 $\in R^{m⇥d_x}$ .
文本query是将输入的问题先划分为单词，最多为14个单词，之后再用300维的GloVe word embeddings方法将每一个单词转化为一个向量。词嵌入再输入一个单层的LSTM网络（有个隐藏单元)，输出一个query的特征矩阵Y。

参考

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob
Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.

chestnut--

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】Deep Modular Co-Attention Networks for Visual Question Answering

Deep Modular Co-Attention Networks for Visual Question Answering先理解下这个要干嘛：Visual Question Answering (VQA)：给一个图片和关于这个图片的问题，然后模型输入这两个数据，输出答案。文章中用得到的数据库VQA-v2里的一个例子：把中间的乱七八糟给盖住：输入问题：胡子是用什么做的？输出答案：香蕉需要设计网络做到同时理解文本内容，抓住关键词，同时理解图片中关键区域的内容：“哪里是胡子”这个问题肯.
复制链接

扫一扫