Visual Question Answering with Textual Representations for Images 论文笔记

最新推荐文章于 2023-04-28 19:08:24 发布

乄洛尘

最新推荐文章于 2023-04-28 19:08:24 发布

阅读量670

点赞数 1

分类专栏：多模态研究文章标签：视觉问答

本文链接：https://blog.csdn.net/qq_38929105/article/details/121925150

版权

多模态研究专栏收录该内容

27 篇文章 22 订阅

订阅专栏

Visual Question Answering with Textual Representations for Images 论文笔记

一、Abstract
二、引言
三、方法
四、实验
五、Limitations and Conclusion

写在前面
分享一篇Workshop短文，有一些启发性的工作，奈何无源码~

论文地址：Visual Question Answering with Textual Representations for Images
代码地址：暂无
收录于 ICCV2021 Workshop

一、Abstract

这篇文章的开头值得借鉴一下，提出疑问句：我们距离采用文本表示来理解图片还有多远？点明本文主旨，采用文本特征来表示图像，即研究了文本表示对于VQA特定上下文图像理解的有效性。

二、引言

一直以来都是采用BUTP的特征用于VQA的标准视觉输入，但是随着Transform语言模型的兴起，大多数工作转向预训练了。所以这就导致一个问题，这些基于深度视觉特征的方法从图片中难以捕捉丰富的语义内容。因此，本文研究基于文本化的区分性表示作为另一种可选的方式。
本文探索了图像文本化表示和视觉特征表示的效率，那么如何进行图像文本化呢，所利用到两个数据集，COCO Captions以及Locialized Narratives。但是这里也留下了坑，如何自动产生文本描述，超出了本文的范畴，🐮。

三、方法

模型的输入由问题和图像的详细描述组成，然后通过一个Transform language-only模型，其输出之后再喂给一个多标签分类器来产生最终的答案。另外还使用数据增强技术来增加训练集的尺度和分布。

3.1 Language-only 数据

主要有三方面的数据：

问题和答案来源于标准的VQA数据集；
图像内容的文本描述表示；
利用数据增强技术获取的合成数据。

3.1.1 Questions and Answers

VQA-CP和VQA 2.数据集

3.1.2 Image Description

COCO Captions + Localized Narratives。具体来说，字幕是通过询问标注员来获得场景的重要部分的描述，而Localized Narrativess包含了整个图像的次级描述，例如COCO Captions中一些可能的微小目标。

3.1.3 Synthetic Data

使用的数据增强主要是针对VQA和Language的增强。

3.2 VQA中的数据增强

目的是强制模型关注输入中的重要部分。主要有4种技术：上位词或下位词替换；颜色反转；对抗替换；反事实样本。
在这里插入图片描述

3.2.1 Hypernym and Hyponym Replacement

解析一下上位词的概念，即某个名词属于一个大类下面，例如COCO数据集80个小类属于20个大类。这20个大类就是上位词，80个小类就是下位词。这里的代替指的是用大类或者小类词代替原来的答案词。

3.2.2 Color Inversion

采用另一种颜色单词来代替描述中的颜色词，并相应地改变答案。

3.2.3 Adversarial Replacement

对于yes/no问题，利用adversarial words的名字来更换当前目标词汇，如果当前词汇在问题中，那么就将Yes改为No，反之不改变。其中adversarial words来自于Glove词向量最相近的欧几里得距离。

3.2.4 Counterfactual Samples

目的旨在修改问题或图像以使得问题-答案对不相关。具体来说，利用Grad-CAM识别出问题或者描述中的关键词，然后除去仅仅通过观察关键词就能回答出的答案。因此，能够得到关键词被masked掉的问题或者描述以及剩下的答案。

3.3 语言中的数据增强

由于本文中的模型只依赖语言模态，因此可以直接利用NLP中的数据增强方法，即 EDA；回译；上下文词替换/嵌入。注意对于EDA来说，包含4种操作：同义词替换，随机插入，随机交换以及随机删除。

四、实验

4.1 实验步骤

采用large RoBERTa作为Transform语言模型，分类器采用2层的感知机以及Swish激活函数(?)，损失采用Softmax cross entropy。模型的输入包含：整个问题序列，描述，五条字幕。

4.2 图像描述的比较

比较4种输入：仅问题、问题和1/5的随机选择的字幕、问题和描述、问题+叙述+5字幕，在VQA-CPv2测试集上的结果：
在这里插入图片描述
注意比较Captions和Narrative的结果，这证实了VQA数据集包含了一些可能与图像整体内容相关的问题，而不是细节。换句话说，人们询问的大多问题基本上都是关于图像的突出部分。

4.3 与深度视觉特征的比较

在VQA-CP v2和VQA 2.0数据集上进行比较，为了保证公平：并未包含解决bias的即插即用的方法。但是有个问题，VQA-CP 数据集本身就是针对VQA-cpV2数据集的，这样你在bias数据集上比较是不是不太妥当？结果如下：
在这里插入图片描述

4.4 合成样本的使用

VQA-CP v2 测试集，结果如下表所示：在这里插入图片描述回译的方法效果很好，原因可能是回译仅仅是数据增强而不改变原意，需要注意的是：1、在同一时刻，需要训练问题数据集有多样性；2、问题-描述-答案三元组语义上需要有正确的关联。基于这种效果，又补充了一组实验，看看能否增强基于深度视觉特征的方法效果，结果是仍能增强。
在这里插入图片描述

五、Limitations and Conclusion

指出了对比仍然是不公平的，因为采用了额外的数据。但是本文给出了另外一种视角针对VQA任务，即采用解释性的文本表示作为一种baseline模型。然后实验部分给出了一个主要发现：采用回译增强能够进一步激发VQA模型的性能，包括基于文本或者深度视觉特征。因此，未来如果回译的技术进步了，说不定能带来新的收益。
写在后面
本文提出了一种新的特征来处理VQA问题，即纯文本输入，这对于打破Transform的垄断有一定的帮助，可惜源码没有放出来。另外，作者的实验提供了一个trick，回译技术。总的来说，论文的想法比较新奇，但是性能确实差点，跟不上主流的方法。另外是在VQA-CP数据集上的实验，总有些用错力的感觉。但是以文本为特征作为VQA模型的输入，这一创新点还是可以深挖的。