Visual Question Answering with Textual Representations for Images 论文笔记


写在前面
  分享一篇Workshop短文,有一些启发性的工作,奈何无源码~

一、Abstract

  这篇文章的开头值得借鉴一下,提出疑问句:我们距离采用文本表示来理解图片还有多远?点明本文主旨,采用文本特征来表示图像,即 研究了文本表示对于VQA特定上下文图像理解的有效性。

二、引言

  一直以来都是采用BUTP的特征用于VQA的标准视觉输入,但是随着Transform语言模型的兴起,大多数工作转向预训练了。所以这就导致一个问题,这些基于深度视觉特征的方法从图片中难以捕捉丰富的语义内容。因此,本文研究基于文本化的区分性表示作为另一种可选的方式。
  本文探索了图像文本化表示和视觉特征表示的效率,那么如何进行图像文本化呢,所利用到两个数据集,COCO Captions以及Locialized Narratives。但是这里也留下了坑,如何自动产生文本描述,超出了本文的范畴,🐮。

三、方法

  模型的输入由问题和图像的详细描述组成,然后通过一个Transform language-only模型,其输出之后再喂给一个多标签分类器来产生最终的答案。另外还使用数据增强技术来增加训练集的尺度和分布。

3.1 Language-only 数据

  主要有三方面的数据:

  • 问题和答案来源于标准的VQA数据集;
  • 图像内容的文本描述表示;
  • 利用数据增强技术获取的合成数据。

3.1.1 Questions and Answers

  VQA-CP和VQA 2.数据集

3.1.2 Image Description

  COCO Captions + Localized Narratives。具体来说,字幕是通过询问标注员来获得场景的重要部分的描述,而Localized Narrativess包含了整个图像的次级描述,例如COCO Captions中一些可能的微小目标。

3.1.3 Synthetic Data

  使用的数据增强主要是针对VQA和Language的增强。

3.2 VQA中的数据增强

  目的是强制模型关注输入中的重要部分。主要有4种技术:上位词或下位词替换;颜色反转;对抗替换;反事实样本。
在这里插入图片描述

3.2.1 Hypernym and Hyponym Replacement

  解析一下上位词的概念,即某个名词属于一个大类下面,例如COCO数据集80个小类属于20个大类。这20个大类就是上位词,80个小类就是下位词。这里的代替指的是用大类或者小类词代替原来的答案词。

3.2.2 Color Inversion

  采用另一种颜色单词来代替描述中的颜色词,并相应地改变答案。

3.2.3 Adversarial Replacement

  对于yes/no问题,利用adversarial words的名字来更换当前目标词汇,如果当前词汇在问题中,那么就将Yes改为No,反之不改变。其中adversarial words来自于Glove词向量最相近的欧几里得距离。

3.2.4 Counterfactual Samples

  目的旨在修改问题或图像以使得问题-答案对不相关。具体来说,利用Grad-CAM识别出问题或者描述中的关键词,然后除去仅仅通过观察关键词就能回答出的答案。因此,能够得到关键词被masked掉的问题或者描述以及剩下的答案。

3.3 语言中的数据增强

  由于本文中的模型只依赖语言模态,因此可以直接利用NLP中的数据增强方法,即 EDA;回译;上下文词替换/嵌入。注意对于EDA来说,包含4种操作:同义词替换,随机插入,随机交换以及随机删除。

四、实验

4.1 实验步骤

  采用large RoBERTa作为Transform语言模型,分类器采用2层的感知机以及Swish激活函数(?),损失采用Softmax cross entropy。模型的输入包含:整个问题序列,描述,五条字幕。

4.2 图像描述的比较

  比较4种输入:仅问题、问题和1/5的随机选择的字幕、问题和描述、问题+叙述+5字幕,在VQA-CPv2测试集上的结果:
在这里插入图片描述
  注意比较Captions和Narrative的结果,这证实了VQA数据集包含了一些可能与图像整体内容相关的问题,而不是细节。换句话说,人们询问的大多问题基本上都是关于图像的突出部分。

4.3 与深度视觉特征的比较

   在VQA-CP v2和VQA 2.0数据集上进行比较,为了保证公平:并未包含解决bias的即插即用的方法。但是有个问题,VQA-CP 数据集本身就是针对VQA-cpV2数据集的,这样你在bias数据集上比较是不是不太妥当?结果如下:
在这里插入图片描述

4.4 合成样本的使用

  VQA-CP v2 测试集,结果如下表所示:在这里插入图片描述回译的方法效果很好,原因可能是回译仅仅是数据增强而不改变原意,需要注意的是:1、在同一时刻,需要训练问题数据集有多样性;2、问题-描述-答案三元组语义上需要有正确的关联。基于这种效果,又补充了一组实验,看看能否增强基于深度视觉特征的方法效果,结果是仍能增强。
在这里插入图片描述

五、Limitations and Conclusion

  指出了对比仍然是不公平的,因为采用了额外的数据。但是本文给出了另外一种视角针对VQA任务,即 采用解释性的文本表示作为一种baseline模型。然后实验部分给出了一个主要发现:采用回译增强能够进一步激发VQA模型的性能,包括基于文本或者深度视觉特征。因此,未来如果回译的技术进步了,说不定能带来新的收益。
写在后面
  本文提出了一种新的特征来处理VQA问题,即纯文本输入,这对于打破Transform的垄断有一定的帮助,可惜源码没有放出来。另外,作者的实验提供了一个trick,回译技术。总的来说,论文的想法比较新奇,但是性能确实差点,跟不上主流的方法。另外是在VQA-CP数据集上的实验,总有些用错力的感觉。但是以文本为特征作为VQA模型的输入,这一创新点还是可以深挖的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乄洛尘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值