文章相关信息
文章出处
- Vinyals, Oriol, et al. “Show and tell: Lessons learned from the 2015 mscoco image captioning challenge.” IEEE transactions on pattern analysis and machine intelligence 39.4 (2016): 652-663.
IEEE模式分析与机器智能汇刊 CV领域顶刊 PAMI
发表时间
- 2016 是Image Captioning最早期的代表性工作
相关文献(继承和引用前人工作)
- 这个工作主要受到了机器翻译模型的启发,机器翻译任务是用将源语言编写的句子S翻译成目标语言句子T。其模型由两个RNN组成,一个负责读取源语言文本,一个负责生成目标语言文本。在机器翻译基础上,使用CNN替换第一个RNN读取输入图片,组成了CNN-RNN模型,称为Neural Image Caption,简称NIC模型。使用CNN是因为CNN能够生成一个定长的向量,对输入的图像进行丰富地表征,可用于各类图像任务。具体的操作是,将CNN在图像分类任务上进行预训练,使用最后一层隐含层作为RNN的输入。
贡献点
- 提出一个端到端模型,可使用SGD训练
- 模型的编码器和解码器部分都使用性能最好的子网络实现,因此模型达到了sota(Pascal数据集:BLEU 25->59;Flicker30k 56->66;SBU 19->28)
- 在MSCOCO竞赛中排名第一(无论是人工评价还是自动评价)
研究背景和意义
学科体系中的位置
- 是个典型的跨模态任务
视觉:需要对图像进行特征提取,物体识别、关系识别、场景识别、动作识别 … …
文本:需要用英语进行自然语言表达,包括句子or段落,这意味着除了视觉理解之外还需要一种语言模型
- 可以为图像检索工作提供先验信息
- 后续可发展为视频描述任务,为新任务提供参考样本
实际应用背景
-
对图像进行标签,传递更加丰富多彩的内容。如,可以帮助视觉障碍人士快速理解图像内容。
-
通过文本检索匹配的图像,应用于发表情包、发微博… …