摘要
REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作,聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。
一、介绍
VQA中数据集分为两种:一种回答关于通过理解自然真实世界图像的对象的问题,另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种,而不能泛化两种。RAMEN模型结构使用一种简单结构,在领域泛化方面优于所有其它模型,所以本研究提出改善RAMEN的结构并分析这些改变对领域泛化问题的整体影响。
主要贡献:1. 通过对RAMEN模型架构的融合和聚合模块调整,来改善领域泛化的表现。2. 基于适合领域泛化的早和晚融合操作的向量的一个广泛比较。3. 基于融合模块的一个transformer实现和分析,以匹配RAMEN模型中区域建议的双模态嵌入之间的关系。
二、相关工作
2.1 VQA数据集
(1) 关于自然图像理解的数据集:所有数据集来自MSCOCO数据集作为基本图像数据集,除了TDIUC添加了额外的图像。
VQA v1:SOTA:75.26%,主要关注检测的问题,包含问题-答案偏见。
VQA v2:减少了问-答偏见,回答推理问题的效果不好。
TDIUC:评估12种VQA任务类型,指标Mean-per-type,一个模型需要在所有问题类型上表现好才能得到一个好的表现分数。
CVQA:重新分割VQA v1,当测试时以引入新的问题-答案对结合,模型需要在任务上泛化,而不是问题和答案。
VQA-CP v2:通过分割VQAv1和VQAv2来战胜问题和语言偏见,允许模型测试泛化的能力,在不通过在训练集过拟合时。
(2) 测试推理的数据集:合成的计算机生成的图像允许数据集自动生成复杂的推理问题,所有数据集使用来自CLEVR数据集的图像。
CLEVR:主要目标是测试模型在几何形状上的推理能力,与TDIUC类似,数据集被分为五种。
CLEVR-Humans:使用自由形式的人类生成的问题-答案对,仍然使用来自CLEVR数据集的同样的图像。
CLEVR-CoGenT:分为CLEVR-CoGenTA和CLEVR-CoGenTB,研究模型识别属性新组合的能力,如在测试时的颜色和形状。
2.2 RAMEN
VQA管道主要包含五个组成部分:VQA数据集、图像表示、问题表示、多模态表示和答案分类。
2.3 Transformer
三、方法
改进的重点是RAMEN模型的多模态表示部分。实验在早融合、晚融合和聚合模块上改进,如图1.
3.1 融合策略