Visual Question Answering with Memory-Augmented Networks阅读心得

本文探讨了如何利用记忆增强神经网络解决VQA任务中罕见答案的问题。通过结合内部和外部记忆,网络能够关注稀缺训练样本,尤其在答案分布重尾的情况下。协同注意机制用于图像和问题的联合嵌入,同时记忆网络负责长期存储稀缺信息。实验结果显示,这种方法提高了VQA系统的性能。
摘要由CSDN通过智能技术生成

本文中利用记忆增强神经网络来预测视觉问题的准确答案,即使这些答案很少出现在训练集中。记忆网络结合了内部和外部记忆块,并有选择地关注每个训练范例。证明了在答案重尾分布的VQA环境中,记忆增强神经网络能够保持对稀缺训练样本的相对长期记忆。
一、文章引入
现有的VQA系统训练深度神经网络存在的两个问题:
1)首先,使用基于梯度的方法训练的深度模型学会响应大多数训练数据,而不是特定的稀缺样本。然而,在自然语言中,问答对往往是重尾分布的。现有的方法将问题中的稀有词标记为无意义的未知标记(例如,unk),并简单地将稀有答案排除在训练集之外。
2)其次,现有的VQA系统从问答对中了解对象的属性,有时独立于图像。VQA算法在没有底层模型真正理解视觉内容的情况下,会受到人类语言的偏见。
本文使用内存网络来记住罕见的事件,并建议学习记忆增强网络,注意VQA的罕见答案。首先采用共同注意机制来共同嵌入图像和问题特征。然后学习记忆增强网络,保持长期记忆稀缺的训练数据。本文提出的的方法与动态内存网络的显著不同之处在于,本文的内存网络既包含LSTM内部的内存,也包含由LSTM控制的外部内存,而动态内存网络只实现了注意门控递归单元(attention gated unit, GRU)内部的内存。
二、内容简介
下图给出了本文所提出算法的主要步骤。
在这里插入图片描述
图一:使用预先训练的CNNs的最后一个池化层来提取编码空间布局信息的图像特征。使用双向LSTMs为每个单词生成一个固定长度的特征向量。一种关注相关图像区域和文本文字的协同注意机制。将参与的图像和问题特征向量连接起来,并将它们输入到一个由标准LSTM作为控制器和一个扩充的外部存储器组成的记忆扩充网络中。控制器LSTM决定何时从外部内存写入或读取。记忆增强网络在保持对稀缺训练数据的长期记忆方面起着关键作用。将记忆增强网络的输出作为图像和问题对的最终嵌入,并将此嵌入提供给分类器以预测答案。
2.1 Input Representation
Image Embedding使用预先训练好的VGGNet-16和ResNet-101提取CNN特征。将图像大小调整为448×448,然后将其输入CNNs。将VGGNet-16的最后一个池化层(pool5)或ResNet-101的最后一个池化层(res5c)的输出作为对应于14×14个空间分布区域的图像特征。用{v1,…,vN}来表示输出特征,其中N = 196为区域总数,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值