(五十三):Deep Visual-Semantic Alignments for Generating Image Descriptions
- Abstract
- 1. Introduction
- 2 RELATED WORK
- 3 OUR MODEL
-
- 3.1 Learning to Align Visual and Language Data 学习对齐视觉和语言数据
- 3.1.1 Representing Images
- 3.1.2 Representing Sentences
- 3.1.3 Alignment Objective 客观对齐
- 3.1.4 Decoding Text Snippet Alignments to Images解码文本片段对齐到图像
- 3.2 Multimodal Recurrent Neural Network for Generating Descriptions用于生成描述的多模态递归神经网络
- 3.3 Optimization
- 4 EXPERIMENTS
- 5 Conclusions
- 出处: IEEE Trans. Pattern Anal. Mach. Intell. 39(4): 664-676 (2017)——————CCF-A
- 代码:https://github.com/VinitSR7/Image-Caption-Generation
- 题目:用于生成图像描述的深度视觉语义对齐
- 主要内容:
Abstract
我们提出了一种生成图像及其区域的自然语言描述的模型。我们的方法利用图像数据集和它们的句子描述来学习语言和视觉数据之间的跨模态对应关系。
我们的对齐模型是基于图像区域上的卷积神经网络、句子上的双向循环神经网络(RNN)的新组合,以及通过多模态嵌入将两种模式对齐的结构化目标。
然后,我们描述了一个多模态循环神经网络体系结构,使用推断对齐来学习生成图像区域的新描述。
在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中,我们证明了我们的比对模型产生了最先进的结果。
然后,我们表明,生成的描述优于检索基线在完整的图像和新的区域级别注释数据集。
最后,我们在包含