论文阅读：Neural Image Caption Generation with Visual Attention

最新推荐文章于 2023-01-02 21:53:13 发布

qq184861643

最新推荐文章于 2023-01-02 21:53:13 发布

阅读量1.6k

点赞数

分类专栏： # deep-learning 论文阅读文章标签： deep-learning

本文链接：https://blog.csdn.net/qq184861643/article/details/78271102

版权

本文探讨了两种基于注意力的图像标题生成模型：一种是通过软注意力进行训练，另一种是通过硬注意力机制，包括变分下界最大化和增强学习。这两种方法在图像特征提取和解码器LSTM的使用上有所不同，硬注意力模型引入了随机性，而软注意力则通过期望获取上下文向量。实验表明，双重随机注意力改进可以提高模型性能和生成标题的质量。

摘要由CSDN通过智能技术生成

原文地址
 代码地址

　　作者在同一个framework下提出两种基于attention的image caption generators：一种是可以通过标准的BP进行训练的soft attention，另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE ）。
　　两者的主要区别体现于后面定义的Φ函数上。

模型细节

编码器
　　编码器使用一个CNN，用一张图片作为输入，输出一个1-of-K的词序列。这里写图片描述
　　为了保持从CNN提取出的特征向量和原图像的对应关系，作者没有从最后的全连接层提取特征，而是从相对低的卷积层中提取特征，提取出的L个特征被操作为annotation vectors，每一个vector都是D维的，即
　　

解码器
主要使用一个LSTM作为解码器。LSTM的cell结构如图。
Cell Structure
————————————————————————————————————
这里写图片描述

在这些equations中，context vector $\vec{z_t}$ 是输入图像的relevant part在t时刻的动态表达，是以annotation vectors为输入通过Φ函数计算得出的。
在hard attention模型中，对每一个annotation vector $\vec{a_i}$ 所对应的图像中的location i，模型会产生一个非负权值 $α_i$ ，可以被视为location i是用来产生下一个word的relevant part的概率（soft版本的attention基本沿用Bahdanau et al.(2014)）。 $α_i$ 通过 attention model