Show and Tell: A Neural Image Caption Generator.
2015-CVPR
O. Vinyals, A. Toshev, S. Bengio, and D. Erhan.
motivation:
图像描述比目标检测和图像分类更难,因为不仅仅要抓住图像中的客观物体,还要表述出这些目标之间的关系。还得考虑语义,语法。当时的办法是依次解决每个子问题然后合在一起来生成图像描述,而这篇论文受到机器翻译模型的启发,首次提出用一个模型来解决所有的问题。提出编码-解码结构,后来很多image caption的文章都在该模型的基础上进行优化改良。开山之作。
Contribution:
提出了Neural Image Caption(NIC)模型来生成图像描述,该模型的优化目标可以使用梯度下降来训练。
该模型结合了现有的一些用于视觉和语言模型

该文提出了一种名为NIC的神经网络系统,它结合CNN进行图像编码和LSTM进行解码,用于生成图像描述。模型基于编码-解码架构,受机器翻译启发,能处理图像中物体和它们的关系。通过最大化生成单词的概率进行训练,表现出优于现有方法的性能。随着数据集增大,模型表现提升,并探讨了使用无监督数据的可能性。
最低0.47元/天 解锁文章
2588

被折叠的 条评论
为什么被折叠?



