论文地址:
https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrievalwww.researchgate.net
来源:ACM Multimedia 2017
作者:电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表,获ACM Multimedia 2017会议最佳论文奖。
一、Introduction
该论文基于对抗学习机制在不同模态之间互相作用获得一个有效的共享子空间,提出了一种新颖对抗性的跨模态检索(ACMR)方法,用于跨模态检索任务。
对抗学习机制是基于两个不同的过程之间的相互作用实现的。
1.第一个过程是一个特征映射器,尝试在共享子空间中产生模型不变的表示来混淆另一个过程。再对特征投影施加三元组约束,以最小化具有相同语义标签的不同模态的所有项目的特征向量之间的距离,同时最大化相同语义上不同的图像和文本特征向量之间的距离。
2.后者是一个模态分类器,主要基于第一个过程中产生的特征表示信息对不同模态进行区分。论文在四个公开的数据集上进行了有效性实验,其性能明显优于其他跨模态检索方法。
文章要做的事情(cross-media retrieval):
输入:image(sentence)+dataset 输出:sentence(image)rank list
二、Contributions:
1.框架的核心是两个过程之间的相互作用,一个特征映射器和一个模态分类器,特征映射器为公共子空间中的不同模态的项目生成模态不变表示。其目的是混淆充当对手的模态分类器。模态分类器试图根据其模态区分项目,并以这种方式控制特征映射器的学习。通过将模态分类器置于对手角色中。当模态分类器无法分辨时结束。
2.训练特征投影仪,使得它共同执行标签预测并在数据中保留底层的跨模态语义结构。通过这种方式,它可以确保学习的特征既可以在模态中进行区分,也可以在模态之间进行不变。
三、Model:
ACMR Model
1.左侧输入是Image和Text
Image:VGG-fc7的输出作为特征v_i
Text:利用简单的BoW(TF-IDF)作为特征