【多模态】《Hierarchical Question-Image Co-Attention for Visual Question Answering》论文阅读笔记

最新推荐文章于 2023-05-22 14:47:57 发布

CC‘s World

最新推荐文章于 2023-05-22 14:47:57 发布

阅读量686

点赞数

分类专栏：多模态文章标签：视觉问答共同注意力问题层次结构一维卷积神经网络 VQA模型

本文链接：https://blog.csdn.net/qq_36643449/article/details/124945815

版权

多模态专栏收录该内容

25 篇文章 10 订阅

订阅专栏

一、概述

这篇文章做的是VQA

与之前介绍的几篇文章用问题query对图像做attention不同的是，这篇文章最大的亮点在于：在本文中，我们认为除了建模“看哪里”或视觉注意力之外，建模“听什么词”或质疑注意力同样重要。我们为 VQA 提出了一种新颖的共同注意力模型，该模型共同推理图像和问题注意力。此外，我们的模型通过新颖的一维卷积神经网络 (CNN) 以分层方式对问题（以及因此通过共同注意机制的图像）进行推理。

之前的几篇用问题query对图像做attention的博客如下：
【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记
 【多模态】《Where To Look: Focus Regions for Visual Question
Answering》论文阅读笔记
 【多模态】《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读笔记
 【多模态】《Visual7W: Grounded Question Answering in
Images》论文阅读笔记
 【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

在本文中，我们认为识别“听哪些词”或质疑注意力的问题同样重要。考虑“这张图片中有多少匹马？”的问题。和“你能在这张图片中看到多少匹马？”。它们具有相同的含义，基本上被前三个词捕捉到。一台处理前三个词的机器可以说对与含义无关的语言变化更加稳健，并且受此观察的启发，除了对视觉注意力进行推理外，我们还解决了问题注意力的问题。具体来说，我们提出了一种新颖的 VQA 多模态注意力模型，具有以下两个创新点：

Co-Attention：我们提出了一种新的机制，可以共同推理视觉注意和问题注意，我们将其称为共同注意。与之前只关注视觉注意力的工作不同，我们的模型在图像和问题之间具有自然对称性，即图像表示用于引导问题注意力，问题表示用于引导图像注意力.
问题层次结构：我们构建了一个层次结构，在三个层次上共同关注图像和问题：（a）单词层次，（b）短语层次和（c）问题层次。在单词级别，我们通过嵌入矩阵将单词嵌入到向量空间。在短语级别，使用一维卷积神经网络来捕获包含在 unigrams、bigrams 和 trigrams 中的信息。具体来说，我们将单词表示与不同支持的时间过滤器进行卷积，然后通过将各种 n-gram 响应合并为单个短语级别的表示来组合它们。在问题层面，我们使用循环神经网络对整个问题进行编码。对于这个层次结构中问题表示的每个级别，我们构建联合问题和图像共同注意图，然后递归组合以最终预测答案的分布。

二、模型

请添加图片描述
给定一个包含 T 个单词的问题，其表示形式为 Q = {q1, . . . qT }，其中 qt 是第 t 个单词的特征向量。我们将 $q_t^w$ 、 $q_t^p$ 和 $q_t^s$ 表示为在位置t的词嵌入、短语嵌入和问题嵌入。

图像特征由V ={v1,…,vN}表示，其中vn是空间位置n处的特征向量。

三、Question Hierarchy

请添加图片描述

给定问题中的词序列 Q = {q1, . . . , qT }，我们首先将单词嵌入到向量空间（端到端学习）得到 $Q_w$ = { $q_1^w , . . . , q_T^w$ }。为了计算短语特征，我们对词嵌入向量应用一维卷积。具体来说，在每个单词位置，我们使用三种窗口大小的过滤器计算单词向量的内积：unigram、bigram 和 trigram。

词级特征 Qw 在输入二元和三元卷积之前被适当地填充为 0，以保持卷积后序列的长度。给定卷积结果，然后我们在每个单词位置的不同 n-gram 上应用最大池化以获得短语级特征:
请添加图片描述
我们的池化方法与以前的使用不同，它在每个时间步自适应地选择不同的 gram 特征，同时保留原始序列长度和顺序。

我们使用 LSTM 在最大池化后对序列 $q_t^p$ 进行编码。对应的问题级特征 $q_t^s$ 是时间 t 的 LSTM 隐藏向量。

四、Co-Attention

我们提出了两种共同注意机制，它们在生成图像和问题注意图的顺序上有所不同。第一种机制，我们称之为并行共同注意，同时生成图像和问题注意。第二种机制，我们称之为交替共同注意，在生成图像注意和问题注意之间顺序交替。

请添加图片描述

4.1 Parallel Co-Attention

我们通过计算所有图像位置和问题位置对的图像和问题特征之间的相似性来连接图像和问题。具体来说，给定一个图像特征图V ∈ $R^{d×N}$ ，问题表示Q∈ $R^{d×T}$ ，亲和矩阵C∈ $R^{T×N}$ 由下式计算:
请添加图片描述
其中 $W_b \in R^{d*d}$ 。然后根据下式分别计算对q和v的attention并加权求和。

4.2 Alternating Co-Attention

在这种注意机制中，我们在生成图像和问题注意之间顺序交替。简而言之，这包括三个步骤： 1）将问题总结为单个向量 q； 2）根据问题摘要q关注图像； 3）根据参加的图像特征关注问题。

具体来说，我们定义了一个注意力操作 x^ = A(X;g)，它将图像（或问题）特征 X 和从问题（或图像）导出的注意力引导 g 作为输入，并输出参与的图像（或问题）向量 . 该操作可以表示为以下步骤：
请添加图片描述
在交替co-attention的第一步，X=Q，g为0；第二步，X = V，其中 V 是图像特征，指导 g 是来自第一步的中间参与问题特征 s^；最后，我们使用参加过的图像特征 v^ 作为指导再次参加问题，即 X = Q 和 g = v^。与并行共同注意类似，交替共同注意也在层次结构的每个级别上完成。