【文献阅读】能兼顾图像理解和推理能力的VQA模型(CVPR,2019)

一、文章概况

文章题目:《Answer Them All! Toward Universal Visual Question Answering Models》

文章下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Shrestha_Answer_Them_All_Toward_Universal_Visual_Question_Answering_Models_CVPR_2019_paper.pdf

二、文献导读

摘要部分:

Visual Question Answering (VQA) research is split into two camps: the first focuses on VQA datasets that require natural image understanding and the second focuses on synthetic datasets that test reasoning. A good VQA algorithm should be capable of both, but only a few VQA algorithms are tested in this manner. We compare five state-ofthe-art VQA algorithms across eight VQA datasets covering both domains. To make the comparison fair, all of the models are standardized as much as possible, e.g., they use the same visual features, answer vocabularies, etc. We find that methods do not generalize across the two domains. To address this problem, we propose a new VQA algorithm that rivals or exceeds the state-of-the-art for both domains.

 VQA的研究分为两个阵营:一个是研究自然图像理解的VQA数据集,一个是研究合成图像推理的VQA数据集。一个好的算法应该同时具备这两种能力,很少有VQA算法进行这种测试。本文利用这两个领域的8个数据集将5个顶尖的VQA算法进行了比较。实验发现这些算法不能同时在在两个领域中运行。为了解决这个问题,作者提出了一种新的VQA算法,在这个算法在两个领域中的性能超越了那些顶尖的算法。

三、文章详细介绍

对图像提出的一些开放性问题,VQA需要一个能够理解和推理这些视觉-语言的模型。然而,大多数VQA模型的顶尖算法仅仅使用偏见(biase)和表面关联(superficial correlations),没有真正的理解图像视觉内容。后来为了减少这些问题,将每个问题与互补的图像和不同的答案联系起来。列如,VQAv2减少偏见,TDIUC将多种问题的答案和罕见问题进行分析归纳,CVQA进行概念的综合性测试,VQACPv2用不同的训练和测试分布测试其性能。

虽然后面的自然图像数据集已经减少了偏见,但这些数据集中的绝大部的分问题并没有测试推理技能,为了弥补这些缺陷,创建了一些新的合成数据集。为了评估算法的鲁棒性,这

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值