2021Point and ask:Incorporating Pointing into Visual Question Answering

摘要

        为更好模拟现实世界,人们探索了多种VQA扩展设置:不同的问题formulation、改变训练和测试分布、在对话中的对话一致性,以及基于解释的回答。在这项工作中,我们通过考虑包含空间参考点在内的视觉问题来进一步扩展这个空间。指向是人类几乎普遍的手势,现实世界的VQA可能针对目标区域的手势。

        具体来说,(1)我们引入并激励点-输入问题作为VQA的扩展;(2)在这个空间中定义三个新的问题类,(3)对每个类引入一个基准数据集和一系列模型设计来处理独特的挑战。与以前的工作有两个关键的区别:首先,我们明确设计了基准来需要点输入,即我们确保如果没有空间参考将无法得到正确的回答;其次,我们明确探索了更现实的点空间输入,而不是标准但不自然的边界框输入。通过我们的探索,我们发现和解决了几个视觉识别的挑战,包括局部和全局推理图像的能力,以及有效结合视觉、语言和空间输入。

一、介绍

        GQA数据集中具有很复杂的关于推理的问题,以测试VQA解析复杂句子的能力,但在现实世界中,一个人不太容易问出这么复杂的问题,而是更可能他们会问“那边有杯子吗”,然后指着托盘的左边。事实上,人类心理学文献表明,指向有趣的物体或情况是婴儿传达意图[21,19]的第一批方式之一。理解指向作为与人类视觉对话的一部分自然是现实人工智能系统的关键能力。

        因此我们建议通过考虑视觉问题来扩展VQA的空间,并进一步包括一个关于语境的空间参考点。以前的工作使用视觉接地来扩展VQA的问题空间:如Visual7W引入了图像区域的which作为候选答案的问题;VisualGenome[16]包含与图像中特定区域相关的问题;GQA[13]在其问题构建过程中利用了接地场景图。我们的建议与这一工作路线有两个关键的区别。首先,我们明确地设计了基准来需要点输入。其次,我们探索更现实的点空间输入,而不是在[31,16,13]中使用的标准但不自然的边界框。

        我们在图1中介绍了一组探索基于点的空间消除歧义的不同方面和挑战。在所有任务中,输入是图像和对应空间接地的单个像素,目标输出是一个多项选择答案。

         我们首先考虑小的设置:(1)PointQA-Local,只有这个点周围的局部区域与问题有关,(2)PointQA-Twice,需要对图像的全局理解。对于每一个,我们从Visual Genome注释中构建相应的数据集,18,830张图像有57,628个问题,34,676张图像有57,405个问题。然后调整基准VQA模型来合并点输入。

        最终,我们考虑不限制问题的通用设置,通过调整来自Visual7W数据集的人写的问题,需要在PointQA-General中进行点消歧,超过25,420张图片产生319,300个问题。我们调整最先进的Pythia,MCAN,和LXMERT模型合并点输入,论证在新环境下的有效性。

        总之,我们的工作将VQA推向了一个新的维度。具体地说,我们(1)引入并激励点输入问题作为VQA的扩展,(2)设计了一套基准数据集,(3)引入了有效的模型扩展来处理这个空间的独特挑战。

 二、相关工作

        VQA中的空间接地:视觉基础已经成为VQA社区[31,10,1,13]的一个中心思想,VQA模型定位问题中被问的对象,在一些数据集中,为问题或答案中提到的每个对象提供了边界框,为鼓励接地和抵消语言先验,提出VQA 2.0,以及VQA-CP数据集。

        一些工作已经使用了视觉接地来扩展了VQA的问题空间,Visual7W的作者引入一个指向QA任务,包含一种which问题和图像区域作为候选答案。然而,没有必要回答应提供该区域的问题:我们随机采样100个问题,只有17%需要区域来产生正确答案。我们引入一个基准,回答一个问题明确需要一个空间接地信号。

        视觉接地的重要性也影响了VQA模型的发展,特别是,大多数最先进的VQA模型在图像上有一个注意力机制,这些模型的相对成功表明了在VQA任务中成功的视觉接地的重要性。一些工作包括将像素级预测作为VQA模型的主要或辅助任务。[30]从视觉基因组中挖掘地面真实注意图,并明确地将注意预测作为模型的辅助任务。其他工作输出了答案的视觉理由,作为热图[23]或与问题[8]相关的视觉实体的语义分割。然而,实际接受VQA模型的空间接地输入的挑战以前还没有被探索过。

        点输入:指出作为一种传达意图的方式在计算机视觉中尚未得到充分的探索。

三、PointQA-Local:对一个区域的推理

        我们现在开始探索指向问题的空间,PointQA-Local设置:问题涉及特定对象的属性查询。

3.1 PointQA-Local数据集

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值