论文阅读:Neural Image Caption Generation with Visual Attention

原文地址
代码地址

  作者在同一个framework下提出两种基于attention的image caption generators:一种是可以通过标准的BP进行训练的soft attention,另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE )。
  两者的主要区别体现于后面定义的Φ函数上。

模型细节

编码器
  编码器使用一个CNN,用一张图片作为输入,输出一个1-of-K的词序列。这里写图片描述
  为了保持从CNN提取出的特征向量和原图像的对应关系,作者没有从最后的全连接层提取特征,而是从相对低的卷积层中提取特征,提取出的L个特征被操作为annotation vectors,每一个vector都是D维的,即
这里写图片描述  

解码器
主要使用一个LSTM作为解码器。LSTM的cell结构如图。
Cell Structure
————————————————————————————————————
这里写图片描述

在这些equations中,context vector zt 是输入图像的relevant part在t时刻的动态表达,是以annotation vectors为输入通过Φ函数计算得出的。
在hard attention模型中,对每一个annotation vector ai 所对应的图像中的location i,模型会产生一个非负权值 αi ,可以被视为location i是用来产生下一个word的relevant part的概率(soft版本的attention基本沿用Bahdanau et al.(2014))。 αi 通过 attention model

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值