Review networks for caption generation

注明:欢迎阅读,讨论。转载及参考请注明出处。谢谢~

论文连接:https://pdfs.semanticscholar.org/8736/3aa042cc23bfae3c865d9e8c280f5fe67de7.pdf

主要思想:attention机制每次只关注到局部,没有考虑全局因素对预测的影响。该文将feature map作为图片的全局信息,然后通过LSTM单元获得一个比feature map更能表示图片全局信息的一个更紧凑、更抽象的thought vector。另一方面,该文参考了论文【5】实验得到的有识别的监督是有用的信息,设计了一种有识别的监督训练机制。

本文分两部分解释:

PART I 结构

结构图如下,左边是一般的编码解码结构,右边是review networks结构


1. Attention的输出结果如下:


2. Reviewer的内部结构如下,:


内部的两个Reviewer是并行结构,共同更新'thought vector'。第一个Reviewer的初始值是fc7,文中说hidden state、cell state是传递到了各reviewer单元。我理解的是每一次 review step之后(产生一个thought vector后),将Reviewer内的参数传递到下一个Reviewer中。

3. Decoder与一般的LSTM单元相同,计算过程如下:


PART II 有识别力的监督

在review networks结构图中的蓝色部分,是有识别力的监督。它在thought vector之后计算出词表中每个字的概率,并运用了max_pooling获得每个字最大的概率(即文中所示的margin)。然后通过margin loss最小:


使得,sj与si区分开来,其中sj是出现在图片描述中的字,而si是没有出现在该图片描述中的字。通过这个监督loss,可以使得reviewer学习到的图片的thought vector更趋近于预测到图片描述中的字。

训练是端到端的,损失函数为:


参考上面(2)、(3)式。


参考论文:Hao Fang, Saurabh Gupta, et al. From captions to visual concepts and back. CVPR, 2015

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值