Coarse-to-Fine Reasoning for Visual Question Answering

面向视觉问答的由粗到细推理方法

一、创新点

1. 提出了一个简单但有效的框架来从问题和图像中提取有意义的特征和谓词(predicate) 。

    提取的信息可以用来解释深度网络的决策。

2. 引入了一种新的由粗到细的推理(Coarse-to-Fine Reasoning)方法 , 以弥合问题和预测答案时的图像。

  (谓词:关于图像/问题的对象、关系或属性的关键字。)

二、方法

 三、过程

1. 图像嵌入

       保留了原始的Faster R-CNN 多任务损失用于目标检测,然后为属性类预测器和关系类预测器 增加了两个额外的交叉熵损失。然后,将提取的对象以及它们的属性和关系重新排列,形成谓词。

       每个谓词遵循三种形式中的一种:

              (1)单谓词<obj>;

              (2)基于属性的谓词<attr,obj> ;

              (3)和基于关系的谓词<obj1,rel,obj2>。

       对于每个谓词中的每个单词,本文应用300-dim Glove word embedding来提取谓词特征。

2. 问题嵌入

       为了提取问题特征,本文应用了600-dim Glove词嵌入伴随GRU来提取特征并学习问题中所有单词的依赖关系。

       为了提取问题谓词,本文将整个问题通过一个停用词过滤器(stop-word filter) 。然后对于每 个问题谓词中的每个词,应用 300-dim Glove word embedding来提取谓词特征。

       (这个过滤器是两个列表的组合 。 第一个列表包含基于NLTK的停用词列表中的单词,即在 句子中不添加太多含义的单词。第二个列表包含出现频率小于10的所有问题中的单词 。 第二个列 表中的单词被认为是罕见词, 对于模型来说很难学习。

3. 粗到细推理

    3.1 信息过滤

       信息过滤以特征和谓词作为输入。f 和 p 都是矩阵形式; nf , np 表示实例的数量(例如,roi的数量或谓词的数量);df, dp表示每个实例的维数。为了过滤掉特征 f 中的不必要信息,将谓词p作为监督信息。通过这种相互作用机制,计算一个加权映射 , 并应用该加权映射输出经过过滤后的信息 的 计算方法如下:

        其中,是可学习的线性投影函数,分别投影。给定权重图,过滤后的信息按式(3)计算:

        其中 为信道尺度向量(channel-scaled vector);⊙表示哈达玛乘积。

       在实际应用中,信息过滤模块同时应用于图像特征和谓词,以及问题特征和谓语实现信息过滤 Ψi 和 Ψq。为了简单起见,这里使用统一的符号 Ψ。

   3.2 多模态学习

       这个模块在粗粒度和细粒度两个层次上联合学习特征。粗粒度级学习问题特征与图像特征之间的交互,细粒度级学习从信息过滤步骤获得的图像过滤信息与问题之间的交互。

(1)粗粒度学习(Coarse-grained learning)

        粗粒度学习的输入是图像特征和问题特征。粗粒度学习的输出是一个联合表示,其中是联合表示的维数。联接表示法的第k个元素计算如下:

        其中, 为可学习因子矩阵;, 表示问题和图像的实数;为联合表示的双线性注意分布图;表示每个实例的维度。下标k表示矩阵列的下标。由式(5)计算:

        其中是可学习的因子矩阵,且与无关。

 (2)细粒度学习

       我们将相同的粗粒度学习过程应用于细粒度学习。唯一的区别是细粒度学习的输入是图像过滤信息Ψi和问题过滤信息Ψq。与式4、5类似,细粒度联合表示计算如下:

       其中计算为:

  3.3 语义推理

       语义推理的目标是使用一个可学习的自适应权重,有选择地从粗粒度和细粒度学习步骤中学习信息,其中是可能答案的数量。在实践中,该模块以为输入,然后输出对所有答案A的候选项的分布。

        其中W和W '为粗粒度学习和细粒度学习的可学习自适应权重;τ(·)和τ '(·)是可学习的投影函数,分别将投影到。为了满足式(8)中的约束,我们对每个向量应用softmax函数;下标α表示答案列表A中某个答案的索引。

四、可视化

五、实验

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值