【多模态】《Hierarchical Question-Image Co-Attention for Visual Question Answering》论文阅读笔记

一、概述

这篇文章做的是VQA

与之前介绍的几篇文章用问题query对图像做attention不同的是,这篇文章最大的亮点在于:在本文中,我们认为除了建模“看哪里”或视觉注意力之外,建模“听什么词”或质疑注意力同样重要。 我们为 VQA 提出了一种新颖的共同注意力模型,该模型共同推理图像和问题注意力。 此外,我们的模型通过新颖的一维卷积神经网络 (CNN) 以分层方式对问题(以及因此通过共同注意机制的图像)进行推理。

之前的几篇用问题query对图像做attention的博客如下:
【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记
【多模态】《Where To Look: Focus Regions for Visual Question
Answering》论文阅读笔记

【多模态】《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读笔记
【多模态】《Visual7W: Grounded Question Answering in
Images》论文阅读笔记

【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

在本文中,我们认为识别“听哪些词”或质疑注意力的问题同样重要。考虑“这张图片中有多少匹马?”的问题。和“你能在这张图片中看到多少匹马?”。它们具有相同的含义,基本上被前三个词捕捉到。一台处理前三个词的机器可以说对与含义无关的语言变化更加稳健,并且受此观察的启发,除了对视觉注意力进行推理外,我们还解决了问题注意力的问题。具体来说,我们提出了一种新颖的 VQA 多模态注意力模型,具有以下两个创新点:

  • Co-Attention:我们提出了一种新的机制,可以共同推理视觉注意和问题注意,我们将其称为共同注意。与之前只关注视觉注意力的工作不同,我们的模型在图像和问题之间具有自然对称性,即图像表示用于引导问题注意力,问题表示用于引导图像注意力.
  • 问题层次结构:我们构建了一个层次结构,在三个层次上共同关注图像和问题:(a)单词层次,(b)短语层次和(c)问题层次。在单词级别,我们通过嵌入矩阵将单词嵌入到向量空间。在短语级别,使用一维卷积神经网络来捕获包含在 unigrams、bigrams 和 trigrams 中的信息。具体来说,我们将单词表示与不同支持的时间过滤器进行卷积,然后通过将各种 n-gram 响应合并为单个短语级别的表示来组合它们。在问题层面,我们使用循环神经网络对整个问题进行编码。对于这个层次结构中问题表示的每个级别,我们构建联合问题和图像共同注意图,然后递归组合以最终预测答案的分布。

二、模型

请添加图片描述
给定一个包含 T 个单词的问题,其表示形式为 Q = {q1, . . . qT },其中 qt 是第 t 个单词的特征向量。 我们将 q t w q_t^w qtw q t p q_t^p qtp q t s q_t^s qts 表示为在位置t的词嵌入、短语嵌入和问题嵌入。

图像特征由V ={v1,…,vN}表示,其中vn是空间位置n处的特征向量。

三、Question Hierarchy

请添加图片描述

给定问题中的词序列 Q = {q1, . . . , qT },我们首先将单词嵌入到向量空间(端到端学习)得到 Q w Q_w Qw = { q 1 w , . . . , q T w q_1^w , . . . , q_T^w q1w,...,qTw }。 为了计算短语特征,我们对词嵌入向量应用一维卷积。 具体来说,在每个单词位置,我们使用三种窗口大小的过滤器计算单词向量的内积:unigram、bigram 和 trigram。

词级特征 Qw 在输入二元和三元卷积之前被适当地填充为 0,以保持卷积后序列的长度。 给定卷积结果,然后我们在每个单词位置的不同 n-gram 上应用最大池化以获得短语级特征:
请添加图片描述
我们的池化方法与以前的使用不同,它在每个时间步自适应地选择不同的 gram 特征,同时保留原始序列长度和顺序。

我们使用 LSTM 在最大池化后对序列 q t p q_t^p qtp 进行编码。 对应的问题级特征 q t s q_t^s qts 是时间 t 的 LSTM 隐藏向量。

四、Co-Attention

我们提出了两种共同注意机制,它们在生成图像和问题注意图的顺序上有所不同。 第一种机制,我们称之为并行共同注意,同时生成图像和问题注意。 第二种机制,我们称之为交替共同注意,在生成图像注意和问题注意之间顺序交替。

请添加图片描述

4.1 Parallel Co-Attention

我们通过计算所有图像位置和问题位置对的图像和问题特征之间的相似性来连接图像和问题。 具体来说,给定一个图像特征图V ∈ R d × N R^{d×N} Rd×N,问题表示Q∈ R d × T R^{d×T} Rd×T,亲和矩阵C∈ R T × N R^{T×N} RT×N由下式计算:
请添加图片描述
其中 W b ∈ R d ∗ d W_b \in R^{d*d} WbRdd。然后根据下式分别计算对q和v的attention并加权求和。
请添加图片描述

4.2 Alternating Co-Attention

在这种注意机制中,我们在生成图像和问题注意之间顺序交替。 简而言之,这包括三个步骤: 1)将问题总结为单个向量 q; 2)根据问题摘要q关注图像; 3)根据参加的图像特征关注问题。

具体来说,我们定义了一个注意力操作 x^ = A(X;g),它将图像(或问题)特征 X 和从问题(或图像)导出的注意力引导 g 作为输入,并输出参与的图像(或问题)向量 . 该操作可以表示为以下步骤:
请添加图片描述
在交替co-attention的第一步,X=Q,g为0; 第二步,X = V,其中 V 是图像特征,指导 g 是来自第一步的中间参与问题特征 s^; 最后,我们使用参加过的图像特征 v^ 作为指导再次参加问题,即 X = Q 和 g = v^。 与并行共同注意类似,交替共同注意也在层次结构的每个级别上完成。

五、Encoding for Predicting Answers

请添加图片描述
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值