Visual Question Answering with Memory-Augmented Networks阅读心得

最新推荐文章于 2021-06-18 09:32:50 发布

untitled713

最新推荐文章于 2021-06-18 09:32:50 发布

阅读量341

点赞数

文章标签：计算机视觉神经网络 vqa

本文链接：https://blog.csdn.net/untitled_/article/details/106519482

版权

本文探讨了如何利用记忆增强神经网络解决VQA任务中罕见答案的问题。通过结合内部和外部记忆，网络能够关注稀缺训练样本，尤其在答案分布重尾的情况下。协同注意机制用于图像和问题的联合嵌入，同时记忆网络负责长期存储稀缺信息。实验结果显示，这种方法提高了VQA系统的性能。

摘要由CSDN通过智能技术生成

本文中利用记忆增强神经网络来预测视觉问题的准确答案，即使这些答案很少出现在训练集中。记忆网络结合了内部和外部记忆块，并有选择地关注每个训练范例。证明了在答案重尾分布的VQA环境中，记忆增强神经网络能够保持对稀缺训练样本的相对长期记忆。
一、文章引入
现有的VQA系统训练深度神经网络存在的两个问题：
1）首先，使用基于梯度的方法训练的深度模型学会响应大多数训练数据，而不是特定的稀缺样本。然而，在自然语言中，问答对往往是重尾分布的。现有的方法将问题中的稀有词标记为无意义的未知标记(例如，unk)，并简单地将稀有答案排除在训练集之外。
2）其次，现有的VQA系统从问答对中了解对象的属性，有时独立于图像。VQA算法在没有底层模型真正理解视觉内容的情况下，会受到人类语言的偏见。
本文使用内存网络来记住罕见的事件，并建议学习记忆增强网络，注意VQA的罕见答案。首先采用共同注意机制来共同嵌入图像和问题特征。然后学习记忆增强网络，保持长期记忆稀缺的训练数据。本文提出的的方法与动态内存网络的显著不同之处在于，本文的内存网络既包含LSTM内部的内存，也包含由LSTM控制的外部内存，而动态内存网络只实现了注意门控递归单元(attention gated unit, GRU)内部的内存。
二、内容简介
下图给出了本文所提出算法的主要步骤。
在这里插入图片描述
图一：使用预先训练的CNNs的最后一个池化层来提取编码空间布局信息的图像特征。使用双向LSTMs为每个单词生成一个固定长度的特征向量。一种关注相关图像区域和文本文字的协同注意机制。将参与的图像和问题特征向量连接起来，并将它们输入到一个由标准LSTM作为控制器和一个扩充的外部存储器组成的记忆扩充网络中。控制器LSTM决定何时从外部内存写入或读取。记忆增强网络在保持对稀缺训练数据的长期记忆方面起着关键作用。将记忆增强网络的输出作为图像和问题对的最终嵌入，并将此嵌入提供给分类器以预测答案。
2.1 Input Representation
Image Embedding使用预先训练好的VGGNet-16和ResNet-101提取CNN特征。将图像大小调整为448×448，然后将其输入CNNs。将VGGNet-16的最后一个池化层(pool5)或ResNet-101的最后一个池化层(res5c)的输出作为对应于14×14个空间分布区域的图像特征。用{v₁,…,v_N}来表示输出特征，其中N = 196为区域总数，

最低0.47元/天解锁文章

untitled713

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫