Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge

最新推荐文章于 2020-12-07 18:52:16 发布

yyyyyyyyXu

最新推荐文章于 2020-12-07 18:52:16 发布

阅读量356

点赞数

分类专栏：阅读笔记文章标签：计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_40711769/article/details/105923232

版权

本文介绍了2015年MSCOCO图像描述挑战赛的研究成果，提出了端到端的CNN-RNN模型——Neural Image Caption（NIC），该模型在多项评价指标上取得最优。通过使用预训练的CNN作为编码器和LSTM作为解码器，模型能够生成多样性的图像描述。实验表明，更好的CNN模型、 Beam Search 参数调整和Scheduled Sampling等技巧能进一步提升模型性能。

摘要由CSDN通过智能技术生成

文章相关信息

文章出处

Vinyals, Oriol, et al. “Show and tell: Lessons learned from the 2015 mscoco image captioning challenge.” IEEE transactions on pattern analysis and machine intelligence 39.4 (2016): 652-663.
IEEE模式分析与机器智能汇刊 CV领域顶刊 PAMI

发表时间

2016 是Image Captioning最早期的代表性工作

相关文献（继承和引用前人工作）

这个工作主要受到了机器翻译模型的启发，机器翻译任务是用将源语言编写的句子S翻译成目标语言句子T。其模型由两个RNN组成，一个负责读取源语言文本，一个负责生成目标语言文本。在机器翻译基础上，使用CNN替换第一个RNN读取输入图片，组成了CNN-RNN模型，称为Neural Image Caption，简称NIC模型。使用CNN是因为CNN能够生成一个定长的向量，对输入的图像进行丰富地表征，可用于各类图像任务。具体的操作是，将CNN在图像分类任务上进行预训练，使用最后一层隐含层作为RNN的输入。