2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering

最新推荐文章于 2023-05-19 20:08:08 发布

weixin_42653320

最新推荐文章于 2023-05-19 20:08:08 发布

阅读量264

点赞数

分类专栏：视觉问答文章标签：计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42653320/article/details/120342957

版权

研究对RAMEN模型进行了改进，增强了其在视觉问答（VQA）领域的泛化能力。通过调整融合和聚合模块，采用不同的融合策略（连接、加法、乘法和问题融合）并引入Transformer结构，提升了模型的表现。实验在多种VQA数据集上进行，分析了不同策略对领域泛化的影响，展示了改进对模型性能的提升。

摘要由CSDN通过智能技术生成

摘要

REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善，以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作，聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。

一、介绍

VQA中数据集分为两种：一种回答关于通过理解自然真实世界图像的对象的问题，另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种，而不能泛化两种。RAMEN模型结构使用一种简单结构，在领域泛化方面优于所有其它模型，所以本研究提出改善RAMEN的结构并分析这些改变对领域泛化问题的整体影响。

主要贡献：1. 通过对RAMEN模型架构的融合和聚合模块调整，来改善领域泛化的表现。2. 基于适合领域泛化的早和晚融合操作的向量的一个广泛比较。3. 基于融合模块的一个transformer实现和分析，以匹配RAMEN模型中区域建议的双模态嵌入之间的关系。

二、相关工作

2.1 VQA数据集

(1) 关于自然图像理解的数据集：所有数据集来自MSCOCO数据集作为基本图像数据集，除了TDIUC添加了额外的图像。

VQA v1：SOTA:75.26%，主要关注检测的问题，包含问题-答案偏见。

VQA v2：减少了问-答偏见，回答推理问题的效果不好。

TDIUC：评估12种VQA任务类型，指标Mean-per-type，一个模型需要在所有问题类型上表现好才能得到一个好的表现分数。

CVQA：重新分割VQA v1，当测试时以引入新的问题-答案对结合，模型需要在任务上泛化，而不是问题和答案。

VQA-CP v2：通过分割VQAv1和VQAv2来战胜问题和语言偏见，允许模型测试泛化的能力，在不通过在训练集过拟合时。

(2) 测试推理的数据集：合成的计算机生成的图像允许数据集自动生成复杂的推理问题，所有数据集使用来自CLEVR数据集的图像。

CLEVR：主要目标是测试模型在几何形状上的推理能力，与TDIUC类似，数据集被分为五种。

CLEVR-Humans：使用自由形式的人类生成的问题-答案对，仍然使用来自CLEVR数据集的同样的图像。

CLEVR-CoGenT：分为CLEVR-CoGenTA和CLEVR-CoGenTB，研究模型识别属性新组合的能力，如在测试时的颜色和形状。

2.2 RAMEN

VQA管道主要包含五个组成部分:VQA数据集、图像表示、问题表示、多模态表示和答案分类。

2.3 Transformer

三、方法

改进的重点是RAMEN模型的多模态表示部分。实验在早融合、晚融合和聚合模块上改进，如图1.

3.1 融合策略

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。