Overcoming Language Priors in VQA via Decomposed Linguistic Representations——(AAAI2020)论文阅读笔记

最近看了两篇文章,都关于解决VQA先验性的问题。其次是一篇AAAI2020上面的文章:《Overcoming Language Priors in VQA via Decomposed Linguistic Representations》,即《用分解语言表示克服VQA中的语言先验》。该篇文章是对CVPR2018的文章《Don’t Just Assume; Look and Answer:Over...
摘要由CSDN通过智能技术生成

目录

1.abstract

2.Introduction

3.模型简介

 4.方法精读

 4.1语言注意模块

4.2问题识别模块

4.3对象引用模块

4.4视觉验证模块

 5.实验



最近看了两篇文章,都关于解决VQA先验性的问题。其次是一篇AAAI2020上面的文章:《Overcoming Language Priors in VQA via Decomposed Linguistic Representations》,即《用分解语言表示克服VQA中的语言先验》。该篇文章是对CVPR2018的文章《Don’t Just Assume; Look and Answer:Overcoming Priors for Visual Question Answering》相关工作的进一步延伸。下面是对这篇文章的相关解读。

1.abstract

       语言先验性就是对于训练的Question与Image数据,模型并没有学会依照Image来回答问题,而只是简单的依赖answer的比例。比如对于what color这类question,答案为white占比为80%,那么当输入这类问题,模型就直接回答为white,而完全不需要依照Image,且这样的正确率很高。

2.Introduction

       近期研究(Kafle和Kanan,2017;Agrawal等人。2018年;Selvaraju等人。2019)证明大多数现有的视觉问答(VQA)模型过度依赖问题和答案之间的表面相关性,即语言优先级,而忽略图像信息。例如,他们可能经常回答关于颜色的问题“白色”,关于运动的问题“网球”,以及以“有没有a”开头的问题“是”,无论问题的图像是什么。这些模型易受语言先验知识影响的主要原因是,在答案推理过程中,问题的各种信息相互纠缠。如何解决language prior problem一直是VQA任务的一大难点,这篇文章从question的角度出发,基于 Don’t Just Assumee; Look and Answer: Overcoming Priors for VQA那篇工作进一步延伸,建立一个能够灵活地学习和利用问题中不同信息的分解表示的VQA模型,对question进行了分解表示,消除了疑问词所带来的language prior,再依据Image信息进行预测answer。值得一提的是,它并不同于以前的 Neural Module Networks。且可以清晰的呈现model预测answer的过程。

该文的主要贡献如下:

(1)学习问题的分解语言表示,并将基于语言的概念发现和基于视觉的概念验证分离,以克服语言先验。

(2) 使用一个结合硬注意机制和软注意机制的语言注意模块,在将概念表示和类型表示分离的同时,灵活地识别问题中的不同信息。

与《Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering》的不同:

论文的方法类似于Agrawal等人的工作,利用问题中的不同信息来分离概念发现概念验证。但是,论文的方法和他们的有两个方面的不同。首先,论文中使用语言注意机制来灵活地学习问题的分解表示,而不是使用基于部分的提取器(Extractor)来从问题中提取短语。其次,将候选答案视为视觉概念,并以端到端的方式学习它们与问题和图像的相关性,同时它们预先定义了各种视觉概念,并使用预先训练的分类器识别图像中的概念。总之,论文中的方法通过学习分解的语言表示,保证了问题中的不同信息可以在一个统一的框架中灵活地识别和适当地利用。

3.模型简介

下面拆分成Question 分解和Answer prediction两部分介绍一下整个模型运行的过程。

Question 分解:

该方法包括语言注意模块问题识别模块对象引用模块视觉验证模块,其中:

(1)语言注意模块将问题解析为三个短语表示:类型表示(qtype)对象表示(qobj)概念表示(qcon)

(2)问题识别模块使用类型表示来识别问题类型和可能的答案集(是/否或特定概念,如颜色或数字)。通过测量词性(疑问词等)呈现与候选答案之间的相关性,生成表示候选答案是否可能是正确答案的问答掩码(Q&A mask)。

(3)对象引用模块采用自上而下的注意机制以物体表象为指导࿰

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值