文字图像处理必看论文一

本文介绍了三篇关于视觉问答(VQA)的研究论文。第一篇提出了一种堆叠注意力网络(SAN),通过多层注意力机制实现推理过程;第二篇则强调通过问题关键词识别图像中的关键对象并融合局部与全局信息;第三篇侧重于图像描述生成任务,采用编码器-解码器框架,利用CNN提取图像特征,LSTM生成描述。
摘要由CSDN通过智能技术生成

以下内容全是学习自一位学长的读书笔记!!!!
首先介绍一篇是
Stacked Attention Networks for Image Question Answering
这篇论文的作者对于VQA,是认为需要带一点推理过程的。
并且

采用了attention机制来实现这种分层关注的推理过程,使用常规的LSTM和CNN网络来提取特征,在用问题特征去提取attention图像,最后用这个结果结合问题向量去attention图像,最后再产生预测
在这里插入图片描述

他使用的图像特征提取方式,还是用的VGGNet ,具体操作就是,先将图像尺寸改成448448,再处理之后,提取的feature map是51214*14。然后关于问题特征的话,那就是采用lstm或者TextCNN.

这篇论文在学长看来,主要的贡献就是,提出了SAN模型处理VQA任务,并且可以在四个数据集上验证SAN模型的性能,然后详细分析了SAN不同层的输出,证明每次attention都是一次推理的过程。

第二篇论文是 A Focused Dynamic Attention Model for Visual Question Ansering
他主要就是通过问题的关键词,识别图像中重要的对象,并且通过LSTM融合来自区域和全部特征的信息,然后将这种问题驱动的标识与问题表示相结合,并将其输入到可以生成答案的推理单元中。

这个模型是通过LSTM对问题文本提取问题表达信息,并且使用预训练的DEEP Residual Networks model获取图像信息。
他还存在一个FDA机制,1.在训练期间,使用真实对象边界框和标签,在测试的时候,先预先计算的边界框,并用对他们进行分类,用来获取对象标签。

第二篇论文是:
Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge
在学长的文章中,这篇论文的工作是用一句英文来描述图片的内容,使用“encoder”RNN来读取源句子,并且把他转换为一个丰富的固定长度的向量表示,并且作为“decoder”RNN的初始隐藏状态,来产生目标序列。
对于模型的介绍:
学长认为这个模型非常简单(当然我都看不懂):首先利用encoder-decoder框架,先利用CNN作为encoder,将Softmax之前的那一层固定维数的向量作为图像特征,再使用LSTM作为decoder,而模型的训练就是使用最大化对数似然来训练的,并且在测试阶段使用beam seach 来减少搜索空间。
在这里插入图片描述
这篇文章有个特点在于,NIC模型就是在decoder开始的时刻输入了图像特征,而不是在每个解码时刻都输入了,是因为如果在每个时刻都输入的话,模型会把图像的噪声放大,并且容易过拟合。
其中就可以发现,encoder-decode的优点:非常的灵活,不受输入和输出模态的限制,也不受两个网络的类型限制,但也有缺点:也就是当输入端是文本的时候,将会边长序列表达为固定维数向量,存在信息损失,并且也还不能处理太长的文本

但是关于训练的细节,倒是因为基本上看不懂,所以就选择放弃了。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值