以下内容全是学习自一位学长的读书笔记!!!!
首先介绍一篇是
Stacked Attention Networks for Image Question Answering
这篇论文的作者对于VQA,是认为需要带一点推理过程的。
并且
采用了attention机制来实现这种分层关注的推理过程,使用常规的LSTM和CNN网络来提取特征,在用问题特征去提取attention图像,最后用这个结果结合问题向量去attention图像,最后再产生预测
他使用的图像特征提取方式,还是用的VGGNet ,具体操作就是,先将图像尺寸改成448448,再处理之后,提取的feature map是51214*14。然后关于问题特征的话,那就是采用lstm或者TextCNN.
这篇论文在学长看来,主要的贡献就是,提出了SAN模型处理VQA任务,并且可以在四个数据集上验证SAN模型的性能,然后详细分析了SAN不同层的输出,证明每次attention都是一次推理的过程。
第二篇论文是 A Focused Dynamic Attention Model for Visual Question Ansering
他主要就是通过问题的关键词,识别图像中重要的对象,并且通过LSTM融合来自区域和全部特征的信息,然后将这种问题驱动的标识与问题表示相结合,并将其输入到可以生成答案的推理单元中。
这个模型是通过LSTM对问题文本提取问题表达信息,并且使用预训练的DEEP Residual Networks model获取图像信息。
他还存在一个FDA机制,1.在训练期间,使用真实对象边界框和标签,在测试的时候,先预先计算的边界框,并用对他们进行分类,用来获取对象标签。
第二篇论文是:
Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge
在学长的文章中,这篇论文的工作是用一句英文来描述图片的内容,使用“encoder”RNN来读取源句子,并且把他转换为一个丰富的固定长度的向量表示,并且作为“decoder”RNN的初始隐藏状态,来产生目标序列。
对于模型的介绍:
学长认为这个模型非常简单(当然我都看不懂):首先利用encoder-decoder框架,先利用CNN作为encoder,将Softmax之前的那一层固定维数的向量作为图像特征,再使用LSTM作为decoder,而模型的训练就是使用最大化对数似然来训练的,并且在测试阶段使用beam seach 来减少搜索空间。
这篇文章有个特点在于,NIC模型就是在decoder开始的时刻输入了图像特征,而不是在每个解码时刻都输入了,是因为如果在每个时刻都输入的话,模型会把图像的噪声放大,并且容易过拟合。
其中就可以发现,encoder-decode的优点:非常的灵活,不受输入和输出模态的限制,也不受两个网络的类型限制,但也有缺点:也就是当输入端是文本的时候,将会边长序列表达为固定维数向量,存在信息损失,并且也还不能处理太长的文本。
但是关于训练的细节,倒是因为基本上看不懂,所以就选择放弃了。。。