2021:Improved RAMEN: Towards Domain Generalization for Visual Question Answering

研究对RAMEN模型进行了改进,增强了其在视觉问答(VQA)领域的泛化能力。通过调整融合和聚合模块,采用不同的融合策略(连接、加法、乘法和问题融合)并引入Transformer结构,提升了模型的表现。实验在多种VQA数据集上进行,分析了不同策略对领域泛化的影响,展示了改进对模型性能的提升。
摘要由CSDN通过智能技术生成

摘要

        REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作,聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。

一、介绍

        VQA中数据集分为两种:一种回答关于通过理解自然真实世界图像的对象的问题,另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种,而不能泛化两种。RAMEN模型结构使用一种简单结构,在领域泛化方面优于所有其它模型,所以本研究提出改善RAMEN的结构并分析这些改变对领域泛化问题的整体影响。

        主要贡献:1. 通过对RAMEN模型架构的融合和聚合模块调整,来改善领域泛化的表现。2. 基于适合领域泛化的早和晚融合操作的向量的一个广泛比较。3. 基于融合模块的一个transformer实现和分析,以匹配RAMEN模型中区域建议的双模态嵌入之间的关系。

二、相关工作

2.1 VQA数据集

        (1) 关于自然图像理解的数据集:所有数据集来自MSCOCO数据集作为基本图像数据集,除了TDIUC添加了额外的图像。

        VQA v1:SOTA:75.26%,主要关注检测的问题,包含问题-答案偏见。

        VQA v2:减少了问-答偏见,回答推理问题的效果不好。

        TDIUC:评估12种VQA任务类型,指标Mean-per-type,一个模型需要在所有问题类型上表现好才能得到一个好的表现分数。 

        CVQA:重新分割VQA v1,当测试时以引入新的问题-答案对结合,模型需要在任务上泛化,而不是问题和答案。

        VQA-CP v2:通过分割VQAv1和VQAv2来战胜问题和语言偏见,允许模型测试泛化的能力,在不通过在训练集过拟合时。

        (2) 测试推理的数据集:合成的计算机生成的图像允许数据集自动生成复杂的推理问题,所有数据集使用来自CLEVR数据集的图像。

        CLEVR:主要目标是测试模型在几何形状上的推理能力,与TDIUC类似,数据集被分为五种。

        CLEVR-Humans:使用自由形式的人类生成的问题-答案对,仍然使用来自CLEVR数据集的同样的图像。

        CLEVR-CoGenT:分为CLEVR-CoGenTA和CLEVR-CoGenTB,研究模型识别属性新组合的能力,如在测试时的颜色和形状。

2.2 RAMEN

        VQA管道主要包含五个组成部分:VQA数据集、图像表示、问题表示、多模态表示和答案分类。

2.3 Transformer

三、方法

        改进的重点是RAMEN模型的多模态表示部分。实验在早融合、晚融合和聚合模块上改进,如图1.

 3.1 融合策略

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值