论文阅读：Neural Image Caption Generation with Visual Attention

最新推荐文章于 2022-02-05 22:50:25 发布

qq184861643

最新推荐文章于 2022-02-05 22:50:25 发布

阅读量1.5k

点赞数

分类专栏： # deep-learning 论文阅读文章标签： deep-learning

本文链接：https://blog.csdn.net/qq184861643/article/details/78271102

版权

原文地址
 代码地址

　　作者在同一个framework下提出两种基于attention的image caption generators：一种是可以通过标准的BP进行训练的soft attention，另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE ）。
　　两者的主要区别体现于后面定义的Φ函数上。

模型细节

编码器
　　编码器使用一个CNN，用一张图片作为输入，输出一个1-of-K的词序列。这里写图片描述
　　为了保持从CNN提取出的特征向量和原图像的对应关系，作者没有从最后的全连接层提取特征，而是从相对低的卷积层中提取特征，提取出的L个特征被操作为annotation vectors，每一个vector都是D维的，即
　　

解码器
主要使用一个LSTM作为解码器。LSTM的cell结构如图。
Cell Structure
————————————————————————————————————
这里写图片描述

在这些equations中，context vector $\vec{z_t}$ 是输入图像的relevant part在t时刻的动态表达，是以annotation vectors为输入通过Φ函数计算得出的。
在hard attention模型中，对每一个annotation vector $\vec{a_i}$ 所对应的图像中的location i，模型会产生一个非负权值 $α_i$ ，可以被视为location i是用来产生下一个word的relevant part的概率（soft版本的attention基本沿用Bahdanau et al.(2014)）。 $α_i$ 通过 attention model

最低0.47元/天解锁文章

qq184861643

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Neural Image Caption Generation with Visual Attention

作者在同一个framework下提出两种基于attention的image caption generators：一种是可以通过标准的BP进行训练的soft attention，另一种是通过最大化变分下界或增强学习来训练的hard attention
复制链接

扫一扫

专栏目录