Visual Question Answering with Memory-Augmented Networks读书笔记

最新推荐文章于 2022-12-27 07:30:00 发布

智商25的憨憨

最新推荐文章于 2022-12-27 07:30:00 发布

阅读量568

点赞数

分类专栏：视觉问答

本文链接：https://blog.csdn.net/gxc19971128/article/details/104341628

版权

近日看了一篇CVPR的文章：《Visual Question Answering with Memory-Augmented Networks》，即“基于记忆增强网络的视觉问答”。

感兴趣的同学可参考原文：Visual Question Answering with Memory-Augmented Networks

3.1 Input Representation

3.2图像特征与问题特征进行co-attention

3.3. Memory Augmented Network记忆增强网络

3.4. Answer Reasoning

四.实验

一.abstract

在本文中，我们利用记忆增强神经网络来预测视觉问题的准确答案，即使这些答案很少出现在训练集中。存储器网络结合了内部和外部存储器块，并有选择地关注每个训练样本。研究表明，记忆增强神经网络能够保持对稀有训练样本的相对长期记忆，在一般的VQA环境下，由于答案的重尾分布，这对视觉问答具有重要意义。在两个大型基准数据集上的实验结果表明，与现有算法相比，该算法具有良好的性能。

二.研究背景

2.1Introduction

给定一个开放式问题和一个参考图像，视觉问答（VQA）的任务是预测与图像一致的问题的答案。现有的VQA系统训练深度神经网络来预测答案，其中图像问题对被共同嵌入作为训练数据，并且答案被编码为一个热标签。尽管近年来取得了重大进展，但这种方法并不能很好地扩展到完全通用的、自由形式的视觉问答。目前的VQA问题，由于answer数量的有限性，因此转化为一种分类问题，但由于部分answer出现的频次较低。作者认为这主要有两个原因：

（1） deep models trained with gradient based methods learn to respond to the majority of training data rather than specific scarce exemplars ;

用梯度下降的方法训练得到的深度模型，对主要的训练数据有较好的相应，但是对特定的稀疏样本却不是；

如下图中的使用基于梯度的方法训练的深度模型学习响应大多数训练数据，但是对特定的稀疏样本却不是。然而，自然语言中问答对的分布往往是重尾分布。根据VQA的定义，它涉及各种各样的问答主题，而这些主题是无法预先预测的。事实上，人类观察者感兴趣的词汇通常是未知或罕见的。下图1显示了一个例子，其中基线VQA系统[2，20]从训练集中排除了稀有答案cucumber，因此没能预测出一个合理答案的试题它是什么深绿色的蔬菜？。尽管稀有词汇对人类观察者来说非常重要，但在对每个答案进行错误评估时，将稀有词汇从训练集中完全排除通常可以提高整体性能。正因为如此，现有的方法将问题中的稀有词标记为无意义的未知令牌（例如，BUN），而简单地排除了来自训练集的出现频率较低的答案。基于这种现象，本文提出Memory-Augmented Network来处理这样一种长尾效应。

图一中，Q：什么是深绿色的蔬菜？

A：黄瓜（我们的）A：西兰花[20]A：生菜[2]

[20]:J、卢，安，巴特拉和帕里克。视觉问答中的分层问题图像协同注意。进行中。神经传导过程研究进展。系统，2016年。

[2]:S、安托尔、A.阿格拉瓦尔、J.卢、M.米切尔、D.巴特拉、C.L.齐尼克和D.帕里克。视觉问答。进行中。IEEE内部配置。2015年。

在给定一个输入问题和参考图像的情况下，我们的方法同时考虑了视觉注意和文本注意，并且预测出比最近的基线系统更准确的答案。我们用红色、蓝色和青色突出显示前三个文本权重。

（2）existing VQA systems learn about the properties of objects from question-answer pairs, sometimes indepently of the image.选择性的关注图像中的某些区域是很重要的策略。

如问题“图像中有多少斑马？”作为一个例子，VQA算法在没有底层模型真正理解视觉内容的情况下会受到人类语言的偏见。例如，出现在训练答案中的斑马数量在预测答案时提供了很强的先验性。虽然从图像中学习计数是可取的，但这仍然是一个开放的问题。同时，能够更好地从文本问答分布的重尾中挖掘单词和概念，将使涉及这些不太常见的单词的问答更加准确。因此，如图2所示，在训练阶段有选择地更加注意重尾答案是非常重要的。

最低0.47元/天解锁文章

智商25的憨憨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Visual Question Answering with Memory-Augmented Networks读书笔记

近日看了一篇CVPR的文章：《Visual Question Answering with Memory-Augmented Networks》，即“基于记忆增强网络的视觉问答”。感兴趣的同学可参考原文：Visual Question Answering with Memory-Augmented Networks 目录一.abstract二.研究背景2.1Introdu...
复制链接

扫一扫

专栏目录