Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge

本文介绍了2015年MSCOCO图像描述挑战赛的研究成果,提出了端到端的CNN-RNN模型——Neural Image Caption(NIC),该模型在多项评价指标上取得最优。通过使用预训练的CNN作为编码器和LSTM作为解码器,模型能够生成多样性的图像描述。实验表明,更好的CNN模型、 Beam Search 参数调整和Scheduled Sampling等技巧能进一步提升模型性能。
摘要由CSDN通过智能技术生成

文章相关信息

文章出处
  • Vinyals, Oriol, et al. “Show and tell: Lessons learned from the 2015 mscoco image captioning challenge.” IEEE transactions on pattern analysis and machine intelligence 39.4 (2016): 652-663.
    IEEE模式分析与机器智能汇刊 CV领域顶刊 PAMI
发表时间
  • 2016 是Image Captioning最早期的代表性工作
相关文献(继承和引用前人工作)
  • 这个工作主要受到了机器翻译模型的启发,机器翻译任务是用将源语言编写的句子S翻译成目标语言句子T。其模型由两个RNN组成,一个负责读取源语言文本,一个负责生成目标语言文本。在机器翻译基础上,使用CNN替换第一个RNN读取输入图片,组成了CNN-RNN模型,称为Neural Image Caption,简称NIC模型。使用CNN是因为CNN能够生成一个定长的向量,对输入的图像进行丰富地表征,可用于各类图像任务。具体的操作是,将CNN在图像分类任务上进行预训练,使用最后一层隐含层作为RNN的输入。
贡献点
  • 提出一个端到端模型,可使用SGD训练
  • 模型的编码器和解码器部分都使用性能最好的子网络实现,因此模型达到了sota(Pascal数据集:BLEU 25->59;Flicker30k 56->66;SBU 19->28)
  • 在MSCOCO竞赛中排名第一(无论是人工评价还是自动评价)

研究背景和意义

学科体系中的位置
  • 是个典型的跨模态任务
    视觉:需要对图像进行特征提取,物体识别、关系识别、场景识别、动作识别 … …
    文本:需要用英语进行自然语言表达,包括句子or段落,这意味着除了视觉理解之外还需要一种语言模型
  • 可以为图像检索工作提供先验信息
  • 后续可发展为视频描述任务,为新任务提供参考样本
实际应用背景
  • 对图像进行标签,传递更加丰富多彩的内容。如,可以帮助视觉障碍人士快速理解图像内容。
    在这里插入图片描述

  • 通过文本检索匹配的图像,应用于发表情包、发微博… …

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值