Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering——论文阅读笔记

最新推荐文章于 2023-05-19 20:08:08 发布

智商25的憨憨

最新推荐文章于 2023-05-19 20:08:08 发布

阅读量1k

点赞数 2

分类专栏：视觉问答

本文链接：https://blog.csdn.net/gxc19971128/article/details/105461407

版权

1.Abstract

2.Introduction

3. VQA-CP : Dataset Creation and Analysis

3.1Countering Priors in VQA（VQA中的反优先级）:

3.2Question Grouping and （问题分组和重新分割）:

4.GVQA模型解析

5.实验

最近看了两篇文章，都关于解决VQA先验性的问题。首先是一篇CVPR上面的文章：《Don’t Just Assume; Look and Answer:
Overcoming Priors for Visual Question Answering》，即《不要只是假设；看和回答：克服视觉问题回答的先验知识》

1.Abstract

许多研究发现，如今的视觉问答（VQA）模型很大程度上受到训练数据表面相关性的驱动，缺乏足够的图像基础。简而言之先验性，就是对于训练的Question与Image数据，模型并没有学会依照Image来回答问题，而只是简单的依赖answer的比例。举个例子，比如对于what color这类question，答案为white占比为80%，那么当输入这类问题，模型就直接回答为white，而完全不需要依照Image，且这样的正确率很高。
论文中首先为VQA提出了一个新的设置，其中对于每种问题类型，训练集和测试集具有不同的答案先验分布。具体来说就是提出了VQA v1和VQA v2数据集的新划分，称之为可变优先级下的可视问答（VQA-cp v1和VQA-cp v2）。论文评估了现有的几种VQA模型在这个新设置下的性能，并表明它们的性能比原来的VQA设置明显下降。所以论文中提出一个新的视觉问答模型（GVQA（Grounded Visiual Question Answering）），该模型在结构上包含归纳偏差和限制，特别是通过主要依赖训练数据中的先验知识来防止模型“作弊”。具体地说，GVQA明确地将图像中视觉概念的识别与给定问题的似是而非的答案空间的识别分离开来，使模型能够更有力地概括不同分布的答案。

2.Introduction

自动回答有关视觉内容的问题被认为是人工智能的最高目标之一。视觉问答（VQA）在计算机视觉、自然语言处理、知识表示和推理等领域提出了一系列丰富的挑战。

图1：现有的VQA模型，如SAN，在很大程度上倾向于依赖于训练问题中的强语言优先级，例如，给定问题类型（“是什么颜色”、“是谁”）的先前答案（“白色”、“否”）。因此，它们在测试图像问题对上的性能显著下降，这些问题对的答案（“黑色”、“是”）不在列中的大多数答案之列。我们提出了一个新的模型（GVQA），它建立在SAN的基础上，能够明确地将视觉概念建立在图像中，因此在训练和测试之间的优先级不匹配的情况下，它的性能明显优于SAN。

注：SAN：针对 VQA问题提出了一个 stacked attention networks (SANs)（用于图像问答的叠层注意网络），简单来说就是一个层叠注意力网络。

论文提出了一个新的接地视觉问答（GVQA）模型，该模型包含归纳偏见和限制，特别是通过主要依赖训练数据中的先验知识来防止其“作弊”。GVQA的动机是直觉，即VQA中的问题提供了两个关键信息：

（1）应该承认什么？或者需要对图像中的哪些视觉概念进行推理以回答问题（例如，“盘子是什么颜色的？”？“需要看图像中的盘子

（2）应该说什么？或者，似是而非的答案的空间是什么（例如，“什么颜色…”？“问题需要用颜色名称来回答。

3. VQA-CP : Dataset Creation and Analysis

即：数据集创建和分析

3.1Countering Priors in VQA（VQA中的反优先级）:

为了抵消VQA v1数据集中的语言优先级，VQA V2通过收集每个问题的互补图像来平衡每个问题。因此，对于提议的VQA v2数据集中的每个问题，都有两个具有不同答案的相似图像，通过这种构造，VQA v2数据集中的语言优先级明显较弱。

现在论文中创建VQA-CP v1和

最低0.47元/天解锁文章

智商25的憨憨

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering——论文阅读笔记

最近看了两篇文章，都关于解决VQA先验性的问题。首先是一篇CVPR上面的文章：《Don’t Just Assume; Look and Answer:Overcoming Priors for Visual Question Answering》，即《不要只是假设；看和回答：克服视觉问题回答的先验知识》1.Abstract许多研究发现，如今的视觉问答（VQA）模型很大程度上受到训练数据表...
复制链接

扫一扫