Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR):由两个GAN组成,分别用于共同表示生成与原始表示重建,它们捕获底层数据结构,并加强输入数据和语义空间之间的关系,以概括已见和未见类别。DANZCR通过对抗学习方法,利用词嵌入来学习语义空间的共同表示。该方法保留了固有的跨媒体相关性,并提高了知识迁移到新类别的能力。
introduction
采用词嵌入作为语义空间,通过对抗性学习框架将不同媒体类型的数据转换到语义空间。具体地,该方法在双重结构中建立GAN,其中前向GAN从输入图像和文本中学习以在语义空间中生成共同表示;反向GAN使用生成的公共表示来重建输入图像和文本以保留原始数据结构。DANZCR方法同时执行零样本学习和相关学习,可以生成共同表示来进行零样本跨媒体检索。
主要贡献:
- 提出对偶GANs结构,用于零样本跨媒体检索。两个GAN协作相互促进,捕获底层数据结构,并加强输入数据和语义空间之间的关系,以概括已知和未知的类别。
- 针对零样本跨媒体检索提出了一种对抗性训练方法,该方法通过从媒体类型和类别中区分生成的共同表达 学习共同表达,以保留固有的跨媒体相关性。利用词嵌入来生成共同表示,通过对抗性训练,建模语义信息,从而增强知识向未知类别转移的能力。
related work
- 跨媒体检索。。。
- 零样本学习。。。
- GAN:受图像翻译工作的启发,将零样本跨媒体检索视为输入空间和语义空间之间的域变换问题。将GAN用作每种媒体类型的双重结构的基本模块,并在多路径网络中为跨媒体数据生成通用语义表示。
approach
问题定义:
数据集:,
其中::未知类数据集,:未知类查询集,:已知类数据集,:已知类查询集。
,第n个实例的图像,文本,相关类别标签。
用训练,对于零样本检索用测试,对于传统场景用测试。
Architecture of DANZCR:
对每一个媒体类型,首先生成 original representation ,然后前向GAN从original representation生成 common representation,反向GAN将common representation转变为original representation,这是一个对偶的过程。
每个GAN都由一个生成模型和一个判别模型组成,详细的网络结构如下
1)前向GAN:类别词嵌入作为监督信息,生成语义共同表达,以建模不同媒体类型和不同类别的相关性。
,:图像的前向生成模型,判别模型;
,:文本的前向生成模型,判别模型。
- 前向生成模型:用一些全连接层,从原始表达中生成共同表达。图像实例:,图像的原始表达:,共同表达:;文本:,,;所以有:,(图像、文本原始表达经过前向生成模型变为图像、文本的共同表达)
- 前向判别模型:一些全连接层,判别生成的共同表达属于哪一个媒体类型和类别。将原始表达和共同表达的连接作为输入,输出是单个值,用于预测生成的公共表示是否真实,以及判别公共表示和数据表示之间的语义相关性。()试图判别相关类别的词嵌入是真实的数据,生成的共同表达、以及不相关类别的词嵌入是假的。
(2)反向GAN:用来重构输入数据的原始表达,这使得公共表示保留数据原始结构,并且增强输入数据和语义空间之间的关系。
, , ,
- 反向生成模型:一些全连接层,学习common representation,以重构输入数据的原始表示(reconstruction representations )。reconstruction representation:, ,所以.(先由正向生成模型生成common representation ,再由反向生成模型生成reconstruction representation )
- 反向判别模型::一些全连接层。输入数据表示,输出单个值来预测数据表示是否真实。()试图判别图像原始表示是真实的,reconstruction representation 是假的。
由于只有少量已知类别的数据,为了进一步加强相关学习,提出了一种基于L2范数的恢复目标函数:
DANZCR方法的全部目标函数是:
优化过程:
(1)生成共同表达:提取图像/文本原始表示,前向生成模型生成共同表达。
(2)前向判别模型的优化:对图像和文本分别采用上升随机梯度对前向判别模型进行训练。
(3)表示重构:反向生成模型从共同表达生成重构表示(reconstruction representation)。
(4)反向判别模型的优化:通过定义随机梯度方程。
(5)前向生成模型的优化
(6)前向和反向生成模型的优化
Experiments