文字图像处理必看论文一

最新推荐文章于 2021-11-21 13:02:05 发布

关切得大神

最新推荐文章于 2021-11-21 13:02:05 发布

阅读量382

点赞数

分类专栏：深度学习数字图像处理

本文链接：https://blog.csdn.net/qq_41115379/article/details/108694883

版权

深度学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数字图像处理

8 篇文章 0 订阅

订阅专栏

本文介绍了三篇关于视觉问答(VQA)的研究论文。第一篇提出了一种堆叠注意力网络(SAN)，通过多层注意力机制实现推理过程；第二篇则强调通过问题关键词识别图像中的关键对象并融合局部与全局信息；第三篇侧重于图像描述生成任务，采用编码器-解码器框架，利用CNN提取图像特征，LSTM生成描述。

摘要由CSDN通过智能技术生成

以下内容全是学习自一位学长的读书笔记！！！！
首先介绍一篇是
Stacked Attention Networks for Image Question Answering
这篇论文的作者对于VQA，是认为需要带一点推理过程的。
并且

采用了attention机制来实现这种分层关注的推理过程，使用常规的LSTM和CNN网络来提取特征，在用问题特征去提取attention图像，最后用这个结果结合问题向量去attention图像，最后再产生预测

他使用的图像特征提取方式，还是用的VGGNet ,具体操作就是，先将图像尺寸改成448448，再处理之后，提取的feature map是51214*14。然后关于问题特征的话，那就是采用lstm或者TextCNN.

这篇论文在学长看来，主要的贡献就是，提出了SAN模型处理VQA任务，并且可以在四个数据集上验证SAN模型的性能，然后详细分析了SAN不同层的输出，证明每次attention都是一次推理的过程。

第二篇论文是 A Focused Dynamic Attention Model for Visual Question Ansering
他主要就是通过问题的关键词，识别图像中重要的对象，并且通过LSTM融合来自区域和全部特征的信息，然后将这种问题驱动的标识与问题表示相结合，并将其输入到可以生成答案的推理单元中。

这个模型是通过LSTM对问题文本提取问题表达信息，并且使用预训练的DEEP Residual Networks model获取图像信息。
他还存在一个FDA机制，1.在训练期间，使用真实对象边界框和标签，在测试的时候，先预先计算的边界框，并用对他们进行分类，用来获取对象标签。

第二篇论文是：
Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge
在学长的文章中，这篇论文的工作是用一句英文来描述图片的内容，使用“encoder”RNN来读取源句子，并且把他转换为一个丰富的固定长度的向量表示，并且作为“decoder”RNN的初始隐藏状态，来产生目标序列。
对于模型的介绍：
学长认为这个模型非常简单（当然我都看不懂）：首先利用encoder-decoder框架，先利用CNN作为encoder，将Softmax之前的那一层固定维数的向量作为图像特征，再使用LSTM作为decoder，而模型的训练就是使用最大化对数似然来训练的，并且在测试阶段使用beam seach 来减少搜索空间。
在这里插入图片描述
这篇文章有个特点在于，NIC模型就是在decoder开始的时刻输入了图像特征，而不是在每个解码时刻都输入了，是因为如果在每个时刻都输入的话，模型会把图像的噪声放大，并且容易过拟合。
其中就可以发现，encoder-decode的优点：非常的灵活，不受输入和输出模态的限制，也不受两个网络的类型限制，但也有缺点：也就是当输入端是文本的时候，将会边长序列表达为固定维数向量，存在信息损失，并且也还不能处理太长的文本。