Deep Visual-Semantic Alignments for Generating Image Descriptions 2015 CVPR Li Fei-Fei的工作,利用深度图文对照嵌入,去实现对图像的描述,文章的最终目标是生成对图像局部的描述,模型主要分为两个部分,第一部分,通过一个多通道嵌入,将句子片段与图像局部区域对应起来,第二部分用上边得到的数据作为训练数据,使用一个多通道的RNN模型来生成图像的描述。
第一部分
通过观察发现人们在写字的时候会频繁的涉及到图像中那些特殊的但是不知道具体位置的目标,我们希望找出这种潜在的关系,该部分分为四个阶段:1.图像表示。2.文本表示。3.图文对应(单词)。4.短语与图片对应。
1.图像表示
该过程使用RCNN