2021:Passage Retrieval for Outside-KnowledgeVisual Question Answering通道检索的外部知识视觉问答

该研究探讨了通道检索在外部知识视觉问答(OK-VQA)中的作用,对比了稀疏检索与密集检索的效果。研究发现,视觉线索在检索中至关重要,特别是图像标注。同时,使用双编码器的密集检索器(如Dense-LXMERT)显著优于基于对象扩展的稀疏检索。未来的研究将涉及自动标注和答案提取。
摘要由CSDN通过智能技术生成

摘要

        在这项工作中,我们通过关注外部知识视觉问答的通道检索来解决多模态信息需求。这项任务需要访问外部知识,我们定义为一个大的非结构化通道集合。我们首先用BM25进行稀疏检索,并研究用对象名和图像标注来扩展问题。我们验证了视觉线索的重要性,在稀疏检索中,标注比对象名更有信息量。然后,我们构建了一个双编码的密集检索器,查询编码器是LXMERT,一个多模态预训练transformer。我们进一步表明,密集检索器的性能显著优于使用对象展开的稀疏检索,而且,密集检索与利用人类生成标注的稀疏检索的性能相匹配。

一、介绍

         经典的VQA基准和模型主要关注于答案能在图像中找到的问题,我们的任务有助于定义信息需求,而不是简单地作为回答问题的知识来源。OK-VQA类似于开放域VQA,需要访问外部和开放的知识资源。开放域QA通常遵循检索和读取范式,系统首先从集合中检索出一些文档(段落),然后从中提取答案。我们重点关注OK-VQA的检索阶段。

        与以前方法从知识库检索知识[11、21、28、29、38-40、45、48]或使用维基百科搜索API[27]这些方法不同,我们系统地用通用信息检索方法研究OK-VQA的通道检索,使我们的方法可以应用于更广泛的非结构化知识资源。我们寻求以下问题的答案:1)OK-VQA中的视觉信号有多大帮助?2)将视觉信号纳入基于术语匹配的稀疏检索模型中的最有效的方法是什么?3)密集检索在多模态信息需求下的工作效果如何?

        为回答以上研究问题,我们研究具有大量维基百科通道收集的OK-VQA查询的通道检索。首先使用BM25进行稀疏检索,我们研究用不同人工注释的对象名和图像标注扩展原始问题的性能,还进一步研究了使用不同融合函数对不同扩展类型的影响,我们验证了视觉线索起着重要的作用。我们进一步揭示了当使用对象扩展时最好利用最显著的匹配信号(CombMAX),当我们用人类生成的标注时,最好考虑使用CombSUM或Reciprocal Rank Fusion的所有标注的匹配信号。

        然后我们采用一个双编码器结构构建一个可学习的密集检索器,我们是使用一个预训练的Transformer模型LXMERT作为我们的多模态编码器来编码文本问题和图像。观察到我们的密集检索器比利用对象扩充的稀疏检索实现了显著的性能改善,论证了有一个多模态查询编码器的密集检索的有效性。此外,我们的密集检索器能够将稀疏检索的性能与标注扩展相匹配,尽管后者利用了人类生成的通常信息丰富的标注。我们的研究是未来基于检索的OK-VQA研究的基本步骤之一。

二、针对OK-VQA的通道检索

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值