来源:CVPR2018
一、Introduction
- 第一篇同时利用GAN和Reinforcement Learning(RL)做跨媒体检索的文章。
- 这个网络可以同时做三个跨媒体的任务:cross-media retrieval,image caption and text-to-image synthesis(对于后两个任务,文章只给出了可视化的结果,没有给出定量的分析)。
- 这篇文章发表在CVPR2018上并且是Spotlight,在MSCOCO上cross-media retrieval的性能达到state-of-the-art。
文章要做的事情(cross-media retrieval):
输入:image(sentence)+dataset 输出:sentence(image)rank list
文中将生成过程结合到跨模态特征嵌入中,通过该方法我们不仅可以学习全局抽象特征还有局部层次特征。
二、Contributions:
1.我们将两个生成模型结合到传统的文本-视觉特征嵌入中。
2.对基准数据集MSCOCO进行了广泛的实验。实验表明,底层和抽象特征的组合可以显著改善跨模态图像标题检索的性能。
三、Model:
GXN模型的主旨:
主要包含三个步骤:Look、Imageine、Match
Look:给出一个查询文本或图像,提取出对应的抽象表示。
Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示,并将其和真实数据进行比较来生成一个更加精细的底层表示。
Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像-文本对的关联匹配。
提出的生成式跨模态特征学习框架
(generative cross-modal feature learning framework,GXN)
1、第一个部分相似于已经存在的跨模态特征表示:将不同模态的特征映射到一个公共的空间;不同之处在于本文使用了两路的特征表示来使表示出的视觉特征和文本特征接近。
作为高层抽象特征而
作为精细的的底层特征。底层特征被用来指导其