Overcoming Language Priors in VQA via Decomposed Linguistic Representations阅读笔记

本文介绍了一种新的VQA模型,通过分解语言表示来减少语言先验影响,提高回答透明度。模型包含语言注意力、问题识别、对象指代和视觉验证四个模块,学习问题的不同信息表示,以更准确地利用图像内容推断答案。
摘要由CSDN通过智能技术生成

大多数现有的可视问答(VQA)模型过分依赖于问答之间的语言优先级。本文提出了一种基于语言注意力的VQA方法,该方法可以灵活地学习和利用问题中各种信息(问题类型,指代对象和期望概念)的分解表示,来最大程度地减少语言先验的影响,并实现透明的回答过程。
一、文章引入
近期研究表明,大多数现有的视觉问答(VQA)模型过度依赖问题和答案之间的表面关联,即语言优先,而忽略图像信息。这些模型之所以容易受到语言先验的影响,主要是因为在答案推理过程中,各种各样的问题信息被纠缠在一起。大多数VQA模型包括三个部分:提取图像和问题的信息表示,融合这些表示以获得图像和问题的联合嵌入,并用联合嵌入预测最终答案。然而,这些模型并没有明确区分和利用疑问句中的不同信息,因此不可避免地要利用答案和疑问词的共现现象来推断答案。
为了克服语言的先验性,Agrawal等人(2018)提出了一种基于视觉的问答模型,利用多个手工设计的模块,利用问题中的不同信息。他们设计了一个问题分类器,将问题分为yes/no问题或non-yes/no问题。在本文中,作者建议学习和利用问题中不同类型信息的分解语言表示,以克服语言先验。
一个问题答案对通常包含三种信息:问题类型,指代对象和预期概念。对于判断题(yes/no question)预期概念蕴含在问题中,对于其他问题(non-yes/no question),预期概念在答案中。人类可以轻松地识别和利用问题中的不同信息来推断答案,并且不受语言先验的影响。为此,作者提出了一种基于语言注意力的VQA方法。如图1所示,该方法包括语言注意力模块,问题识别模块,对象指代模块和视觉验证模块。语言注意力模块将问题解析为三个短语表示:类型表示,对象表示和概念表示。这些分解的语言表示将被分别输入到后续的模块。
在这里插入图片描述
图1:(a)yes/no 问题的回答过程,(b)non-yes/no 问题的回答过程。
该方法通过识别和利用问题中的不同信息,将基于语言的概念发现和基于视觉的概念验证从答案推理过程中分离出来。因此,问题与

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值