Review networks for caption generation

最新推荐文章于 2019-11-08 12:10:20 发布

完美妖姬

最新推荐文章于 2019-11-08 12:10:20 发布

阅读量629

点赞数 1

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16305985/article/details/79089234

版权

image caption 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

注明：欢迎阅读，讨论。转载及参考请注明出处。谢谢~

论文连接：https://pdfs.semanticscholar.org/8736/3aa042cc23bfae3c865d9e8c280f5fe67de7.pdf

主要思想：attention机制每次只关注到局部，没有考虑全局因素对预测的影响。该文将feature map作为图片的全局信息，然后通过LSTM单元获得一个比feature map更能表示图片全局信息的一个更紧凑、更抽象的thought vector。另一方面，该文参考了论文【5】实验得到的有识别的监督是有用的信息，设计了一种有识别的监督训练机制。

本文分两部分解释：

PART I 结构

结构图如下，左边是一般的编码解码结构，右边是review networks结构

1. Attention的输出结果如下：

2. Reviewer的内部结构如下，：

内部的两个Reviewer是并行结构，共同更新'thought vector'。第一个Reviewer的初始值是fc7，文中说hidden state、cell state是传递到了各reviewer单元。我理解的是每一次 review step之后(产生一个thought vector后)，将Reviewer内的参数传递到下一个Reviewer中。

3. Decoder与一般的LSTM单元相同，计算过程如下：

PART II 有识别力的监督

在review networks结构图中的蓝色部分，是有识别力的监督。它在thought vector之后计算出词表中每个字的概率，并运用了max_pooling获得每个字最大的概率（即文中所示的margin）。然后通过margin loss最小：

使得，sj与si区分开来，其中sj是出现在图片描述中的字，而si是没有出现在该图片描述中的字。通过这个监督loss，可以使得reviewer学习到的图片的thought vector更趋近于预测到图片描述中的字。

训练是端到端的，损失函数为：

参考上面（2）、（3）式。

参考论文：Hao Fang, Saurabh Gupta, et al. From captions to visual concepts and back. CVPR, 2015

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Review networks for caption generation

注明：欢迎阅读，讨论。转载及参考请注明出处。谢谢~论文连接：https://pdfs.semanticscholar.org/8736/3aa042cc23bfae3c865d9e8c280f5fe67de7.pdf主要思想：attention机制每次只关注到局部，没有考虑全局因素对预测的影响。该文将feature map作为图片的全局信息，然后通过LSTM单元获得一个比feature map更能
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。