Overcoming Language Priors in VQA via Decomposed Linguistic Representations阅读笔记

最新推荐文章于 2024-09-08 16:48:18 发布

untitled713

最新推荐文章于 2024-09-08 16:48:18 发布

阅读量378

点赞数

文章标签：计算机视觉深度学习 vqa

本文链接：https://blog.csdn.net/untitled_/article/details/107432170

版权

本文介绍了一种新的VQA模型，通过分解语言表示来减少语言先验影响，提高回答透明度。模型包含语言注意力、问题识别、对象指代和视觉验证四个模块，学习问题的不同信息表示，以更准确地利用图像内容推断答案。

摘要由CSDN通过智能技术生成

大多数现有的可视问答（VQA）模型过分依赖于问答之间的语言优先级。本文提出了一种基于语言注意力的VQA方法，该方法可以灵活地学习和利用问题中各种信息（问题类型，指代对象和期望概念）的分解表示，来最大程度地减少语言先验的影响，并实现透明的回答过程。
一、文章引入
近期研究表明，大多数现有的视觉问答（VQA）模型过度依赖问题和答案之间的表面关联，即语言优先，而忽略图像信息。这些模型之所以容易受到语言先验的影响，主要是因为在答案推理过程中，各种各样的问题信息被纠缠在一起。大多数VQA模型包括三个部分：提取图像和问题的信息表示，融合这些表示以获得图像和问题的联合嵌入，并用联合嵌入预测最终答案。然而，这些模型并没有明确区分和利用疑问句中的不同信息，因此不可避免地要利用答案和疑问词的共现现象来推断答案。
为了克服语言的先验性，Agrawal等人（2018）提出了一种基于视觉的问答模型，利用多个手工设计的模块，利用问题中的不同信息。他们设计了一个问题分类器，将问题分为yes/no问题或non-yes/no问题。在本文中，作者建议学习和利用问题中不同类型信息的分解语言表示，以克服语言先验。
一个问题答案对通常包含三种信息：问题类型，指代对象和预期概念。对于判断题（yes/no question）预期概念蕴含在问题中，对于其他问题（non-yes/no question），预期概念在答案中。人类可以轻松地识别和利用问题中的不同信息来推断答案，并且不受语言先验的影响。为此，作者提出了一种基于语言注意力的VQA方法。如图1所示，该方法包括语言注意力模块，问题识别模块，对象指代模块和视觉验证模块。语言注意力模块将问题解析为三个短语表示：类型表示，对象表示和概念表示。这些分解的语言表示将被分别输入到后续的模块。
在这里插入图片描述
图1：（a）yes/no 问题的回答过程，（b）non-yes/no 问题的回答过程。
该方法通过识别和利用问题中的不同信息，将基于语言的概念发现和基于视觉的概念验证从答案推理过程中分离出来。因此，问题与

最低0.47元/天解锁文章

untitled713

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Overcoming Language Priors in VQA via Decomposed Linguistic Representations阅读笔记

大多数现有的可视问答（VQA）模型过分依赖于问答之间的语言优先级。本文提出了一种基于语言注意力的VQA方法，该方法可以灵活地学习和利用问题中各种信息（问题类型，指代对象和期望概念）的分解表示，来最大程度地减少语言先验的影响，并实现透明的回答过程。一、文章引入近期研究表明，大多数现有的视觉问答（VQA）模型过度依赖问题和答案之间的表面关联，即语言优先，而忽略图像信息。这些模型之所以容易受到语言先验的影响，主要是因为在答案推理过程中，各种各样的问题信息被纠缠在一起。大多数VQA模型（包括三个部分：提取图像和
复制链接

扫一扫