重点是可扩展的(extendable):训练和测试集中的实例具有不相交的类。
一个新的框架:Modal-adversarial Semantic Learning Network (MASLN) 模态对抗语义学习网络。MASLN包括两个跨模态重建和模态对抗语义学习的子网络。前者以类嵌入准则作为重构过程中的辅助信息,通过重构各模态数据,最小化跨模态分布差异。后者生成对模态不加区分的语义表征,同时通过对抗性学习机制将模态与共同表示区分开来。对两个子网络联合训练,以提高公共子空间中的跨模态语义一致性,并将知识传递到目标集中的实例。
Introduction
Figure 1 (a):大多数现有的跨模态检索方法中常用的原理,我们称之为不可扩展的跨模态检索原理:需要一组实例,每个实例都是指定类标签的图像-文本对的形式。然后将集合分为源集和目标集,其中每个集具有来自所有类的不相交的图像-文本对。从训练阶段的源集中学习公共语义空间,然后将其应用于目标集以生成实例的公共表示。最后,可以通过共同表示来测量实例的跨模态相似性,并且可以执行跨模态检索。在这种情况下,目标集中的每个实例都属于源集中的一个预定义类(总共10个类)。然而,这种假设在实践中并不总是存在,目标集可能存在源集没有cover的类别。
Figure 1 (b):提出的新原理,称为可扩展的跨模态检索:源集和目标集具有来自不相交类的实例。例如,源集中的五个类不与目标集中的类重叠,模型在源集中学习,并在目标集上直接测试,评估模型的可扩展性。类似于CV中的零样本学习,不过零样本学习专注于单模态数据中的知识转移。
Figure 2:Modal-adversarial Semantic Learning Network 的流程图,包括跨模态重构和模态对抗语义学习两个子网络。绿色箭头表示重构流,红色箭头表示语义学习箭头。端到端的结构,由两个子网络联合训练以相互促进并学习跨模态公共表示。
主要贡献:
- 提出了跨模态重建子网以使用条件自动编码器最小化跨域分布差异以重建每个模态。与现有方法使用自动编码器来重建模态数据不同,条件自动编码器将类嵌入作为重建过程中的辅助信息。它有助于将学习的共同表示中的类的区分结合起来,并使知识从源集转移到目标集(It helps incorporate the discrimination of classes in the learned common representation, and enables the knowledge tra