ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

最新推荐文章于 2022-04-22 17:21:18 发布

NeverMoreH

最新推荐文章于 2022-04-22 17:21:18 发布

阅读量542

点赞数

分类专栏： vision&language # visual question answering 文章标签： ECCV2020 视觉语言 VQA 关系推理 reasoning

本文链接：https://blog.csdn.net/ms961516792/article/details/112299186

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual question answering

20 篇文章 3 订阅

订阅专栏

简介

本文一作是南洋理工大学的Xiaofeng Yang。
文章链接

动机

现有的VQA方法可以分为两类，第一类侧重于对视觉和语言的跨模态联合建模，但是由于缺乏关系推理能力，在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计，但是这类方法需要手工设计，在real-world数据集上难以适用（具有过多的目标类别和可能的推理action）。本文在VQA中引入关系推理，单纯地基于图片提取objects并建立它们之间的关系会带来很大的噪声，并且需要大量的计算资源。而实际上，一个question中一般不包括超过6个objects。

贡献

提出了新颖的分层注意力方法，由TRR units构成TRR network，每个TRR units由四个部分组成：① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module，这四个模块的作用后面再介绍。
提出一个策略网络，能够根据question和推理结果选择最佳的推理步骤。
在GQA test2019上准确率为60.74，在VQAv2和CLEVR上效果也还不错。

方法

本文方法的主要思想如下图所示。首先，在object-level上做一个注意力，得到一些候选objects，再将这些候选objects进一步细分，得到相关、不相关两类objects，不相关的objects直接丢弃，相关的objects之间建立两两关系。

本文具体方法如下图所示，本质是TRR units的堆叠。每个TRR unit包含四个部分：① root attention、② root to leaf attetnion passing module、③ leaf attention、④ message passing module，下面分别进行介绍。

① root attention。这部分基于object特征 $V$ 、bbox特征 $B$ 和word特征 $E$ 生成object-level的注意力 $\alpha ^{object}$ ，和object特征融合后，得到融合的object特征 $O^{root}$ 作为输出。
② root to leaf attetnion passing module。这部分和 $O^{root}$ 没有什么关系，和 $\alpha ^{object}$ 有关系。这部分首先基于 $\alpha ^{object}$ 、object特征 $V$ 和超参数 $K$ 选出 $K$ 个object，然后将得到的object特征和其对应的bbox特征concat一下，再两两建立关系，得到关系特征 $R$ 。
③ leaf attention。这部分首先基于question embedding $e$ 、关系特征 $R$ 做一些fc后得到特征 $h$ ，再基于 $h$ 使用softmax得到relation-level注意力 $\alpha ^{relation}$ ，将注意力和关系特征结合，得到 $O^{leaf}$ 作为输出。
④ message passing module。由于要实现多步推理，这个模块的主要作用是，将 $O^{leaf}$ 和object特征 $V$ 结合，得到下一次迭代过程中的输入 $V_{new}$ 。

综上，每个TRR unit的处理过程可以总结为：
$O^{root}_{t}, O^{leaf}_{t}, V_{t+1} = TRR_{t}(B, V_t, E)$
至于什么时候停止推理，作者设计了策略网络，结合 $O^{root}_{t}$ 、word特征 $E$ 和当前推理次数 $t$ 共同决定。当停止推理后，基于 $O^{root}_{t}$ 、 $O^{leaf}_{t}$ 和 $E$ 得到最终答案。

实验

在GQA test2019上的实验结果：

一些可视化的实验结果：

NeverMoreH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

目录简介动机贡献方法实验简介文章链接动机现有的VQA方法可以分为两类，第一类侧重于对视觉和语言的跨模态联合建模，但是由于缺乏关系推理能力，在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计，但是这类方法需要手工设计，在real-world数据集上难以适用（具有过多的目标类别和可能的推理action）。贡献方法实验...
复制链接

扫一扫

专栏目录