论文阅读:Neural Image Caption Generation with Visual Attention

本文探讨了两种基于注意力的图像标题生成模型:一种是通过软注意力进行训练,另一种是通过硬注意力机制,包括变分下界最大化和增强学习。这两种方法在图像特征提取和解码器LSTM的使用上有所不同,硬注意力模型引入了随机性,而软注意力则通过期望获取上下文向量。实验表明,双重随机注意力改进可以提高模型性能和生成标题的质量。
摘要由CSDN通过智能技术生成

原文地址
代码地址

  作者在同一个framework下提出两种基于attention的image caption generators:一种是可以通过标准的BP进行训练的soft attention,另一种是通过最大化变分下界或增强学习来训练的hard attention(“hard”stochastic attention mechanism trainable by maximizing an approximate variational lower bound or equivalently by REINFORCE )。
  两者的主要区别体现于后面定义的Φ函数上。

模型细节

编码器
  编码器使用一个CNN,用一张图片作为输入,输出一个1-of-K的词序列。这里写图片描述
  为了保持从CNN提取出的特征向量和原图像的对应关系,作者没有从最后的全连接层提取特征,而是从相对低的卷积层中提取特征,提取出的L个特征被操作为annotation vectors,每一个vector都是D维的,即
这里写图片描述  

解码器
主要使用一个LSTM作为解码器。LSTM的cell结构如图。
Cell Structure
————————————————————————————————————
这里写图片描述

在这些equations中,context vector zt 是输入图像的relevant part在t时刻的动态表达,是以annotation vectors为输入通过Φ函数计算得出的。
在hard attention模型中,对每一个annotation vector ai 所对应的图像中的location i,模型会产生一个非负权值 αi ,可以被视为location i是用来产生下一个word的relevant part的概率(soft版本的attention基本沿用Bahdanau et al.(2014))。 αi 通过 attention model

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值