2019：Answer Them All! Toward Universal Visual Question Answering Models

最新推荐文章于 2024-03-06 17:43:23 发布

weixin_42653320

最新推荐文章于 2024-03-06 17:43:23 发布

阅读量336

点赞数

分类专栏：视觉问答 CVPR 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/120302655

版权

研究发现，当前先进的VQA算法在自然图像和合成数据集上表现各异，无法实现跨领域推广。为此，提出了RAMEN模型，其在多个VQA数据集上展现出与顶级算法竞争的实力，旨在处理复杂推理和泛化问题。RAMEN通过早期融合、双模态嵌入学习和循环聚合实现概念简单但功能强大的VQA能力。

摘要由CSDN通过智能技术生成

摘要

视觉问题回答(VQA)研究分为两个阵营：第一个关注需要自然图像理解的VQA数据集，第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现，但只有少数VQA算法用这种方法进行测试。我们比较了在覆盖这两个领域的8个VQA数据集上的五种最先进的VQA算法，为了使比较公平，所有的模型都尽可能地标准化了，例如，它们使用相同的视觉特征、答案词汇等。我们发现这些方法并不能推广到这两个领域。为了解决这个问题，我们提出了一种新的VQA算法，它可以在这两个领域上竞争或超过最先进的算法。

一、介绍

正确回答这些问题需要很多能力，包括对象定位、属性检测、行为分类、场景理解、推理、计数以及更多。很多表现好的算法仅仅利用了偏见和表面相关性，之后的自然图像数据集试图解决此问题，VQA v2通过对每个问题加入互补图像和不同的答案减少了一定的语言偏见；TDIUC分析了多种问题和很少答案的泛化；CVQA测试了概念组合性；VQA CP v2测试了当训练和测试分布不同时的表现。

虽然之后的自然图像数据集减少了偏见，但这里的绝大多数问题没有严格测试推理技能。创建了几个合成数据集作为一种补救措施，它们包含有着挑战性问题，即能测试多步推理、计数和逻辑推理的简单视觉场景。为正确评估算法的鲁棒性，这些数据集的创建者认为算法应该在两个领域内测试。

然而，几乎所有最近的论文只报告了在一种领域上的表现，CLEVR上的最佳算法没有在自然图像VQA数据集上测试，反之亦然。我们在八个数据集上测试了五种最先进VQA系统，发现大多方法并没有在两个领域内表现好(图1)。我们提出一种新模型，在所有的评估数据集上竞争最先进的模型。

主要贡献：（1）在8个数据集上对五种最先进算法严格比较，发现许多算法并不能跨领域进行推广。（2）VQA算法通常使用不同的视觉特征和答案词汇，使很难评估性能提高，我们努力标准化跨模型的组件，如使用相同视觉特征比较所有算法，这需要提高合成场景的方法来使用区域建议。（3）大多VQA算法在泛化测试中的表现很差，表明这些方法仍然在利用数据集偏见。（4）我们描述了一种新的算法，在所有数据集上与最先进的方法媲美，总体表现最好。

二、相关工作

VQA数据集的统计数据如下。

VQA v1数据集有多种语言偏见，如一些问题与特定答案严重相关，VQAv2存在其它语言偏见，如推理问题与检测问题相比比较罕见。TDIUC尝试将问题分为12种类型，有评估问题类型泛化的指标。CVQA重新分割VQAv1，以测试训练集中未见过的概念组成的泛化，测试了以看不见的方式组合以前看到的概念能力。VQA-CPv2重新组织了VQAv2，每种问题类型的答案分布在训练和测试中不同。CLEVR是一个合成数据集，包含简单几何形状的视觉场景，旨在测试合成语言和基本的视觉推理，其中的问题通常需要长链的复杂推理，其中问题被分为五个任务：查询属性、比较属性、存在、计数和整体比较，所有的问题都通过编程生成，所以创建CLEVR-Humans是为提供人类生成的问题，以测试对自由形式问题的泛化。 CLEVR-CoGenT测试了处理看不见的概念组合和记住旧的概念组合的能力，分为CoGenT-A和CoGenT-B，具有相互排斥的形状+颜色组合，如果在CoGenT-A上训练的模型在没有微调的情况下在CoGenT-B上表现良好，它表明了对新组成的泛化，如果在CoGe