【论文阅读笔记】Show and Tell: A Neural Image Caption Generator.

该文提出了一种名为NIC的神经网络系统,它结合CNN进行图像编码和LSTM进行解码,用于生成图像描述。模型基于编码-解码架构,受机器翻译启发,能处理图像中物体和它们的关系。通过最大化生成单词的概率进行训练,表现出优于现有方法的性能。随着数据集增大,模型表现提升,并探讨了使用无监督数据的可能性。
摘要由CSDN通过智能技术生成

Show and Tell: A Neural Image Caption Generator.

2015-CVPR

O. Vinyals, A. Toshev, S. Bengio, and D. Erhan.

  • motivation:

图像描述比目标检测和图像分类更难,因为不仅仅要抓住图像中的客观物体,还要表述出这些目标之间的关系。还得考虑语义,语法。当时的办法是依次解决每个子问题然后合在一起来生成图像描述,而这篇论文受到机器翻译模型的启发,首次提出用一个模型来解决所有的问题。提出编码-解码结构,后来很多image caption的文章都在该模型的基础上进行优化改良。开山之作。

  • Contribution:

  1. 提出了Neural Image Caption(NIC)模型来生成图像描述,该模型的优化目标可以使用梯度下降来训练。

  1. 该模型结合了现有的一些用于视觉和语言模型

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值