Dual Adversarial Networks for Zero-shot Cross-media Retrieval 阅读笔记

最新推荐文章于 2022-11-13 16:56:15 发布

王小白的博客

最新推荐文章于 2022-11-13 16:56:15 发布

阅读量674

点赞数 1

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR)：由两个GAN组成，分别用于共同表示生成与原始表示重建，它们捕获底层数据结构，并加强输入数据和语义空间之间的关系，以概括已见和未见类别。DANZCR通过对抗学习方法，利用词嵌入来学习语义空间的共同表示。该方法保留了固有的跨媒体相关性，并提高了知识迁移到新类别的能力。

introduction

采用词嵌入作为语义空间，通过对抗性学习框架将不同媒体类型的数据转换到语义空间。具体地，该方法在双重结构中建立GAN，其中前向GAN从输入图像和文本中学习以在语义空间中生成共同表示;反向GAN使用生成的公共表示来重建输入图像和文本以保留原始数据结构。DANZCR方法同时执行零样本学习和相关学习，可以生成共同表示来进行零样本跨媒体检索。

主要贡献：

提出对偶GANs结构，用于零样本跨媒体检索。两个GAN协作相互促进，捕获底层数据结构，并加强输入数据和语义空间之间的关系，以概括已知和未知的类别。
针对零样本跨媒体检索提出了一种对抗性训练方法，该方法通过从媒体类型和类别中区分生成的共同表达学习共同表达，以保留固有的跨媒体相关性。利用词嵌入来生成共同表示，通过对抗性训练，建模语义信息，从而增强知识向未知类别转移的能力。

related work

跨媒体检索。。。
零样本学习。。。
GAN：受图像翻译工作的启发，将零样本跨媒体检索视为输入空间和语义空间之间的域变换问题。将GAN用作每种媒体类型的双重结构的基本模块，并在多路径网络中为跨媒体数据生成通用语义表示。

approach

问题定义：

数据集： $D=\left \{ D_{UD},D_{UQ},D_{SD},D_{SQ} \right \}$ ，

其中： $D_{UD}$ ：未知类数据集， $D_{UQ}$ ：未知类查询集， $D_{SD}$ ：已知类数据集， $D_{SQ}$ ：已知类查询集。

$D_{UD}=\left \{{i_n,t_n,l_n} \right \}^{N_{UD}}_{n=1}$ ，第n个实例的图像，文本，相关类别标签。

用 $D_{SD}$ 训练，对于零样本检索用 $D_{UQ}$ 测试，对于传统场景用 $D_{SQ}$ 测试。

Architecture of DANZCR：

对每一个媒体类型，首先生成 original representation ，然后前向GAN从original representation生成 common representation，反向GAN将common representation转变为original representation，这是一个对偶的过程。

每个GAN都由一个生成模型和一个判别模型组成，详细的网络结构如下

1）前向GAN：类别词嵌入作为监督信息，生成语义共同表达，以建模不同媒体类型和不同类别的相关性。

$G_{FI}$ ， $D_{FI}$ ：图像的前向生成模型，判别模型；

$G_{FT}$ ， $D_{FT}$ ：文本的前向生成模型，判别模型。

前向生成模型：用一些全连接层，从原始表达中生成共同表达。图像实例：，图像的原始表达：，共同表达：；文本：，，；所以有： $s^i_n=G_{FI}(f^i_n)$ , $s^i_t=G_{FT}(f^t_n)$ （图像、文本原始表达经过前向生成模型变为图像、文本的共同表达）
前向判别模型：一些全连接层，判别生成的共同表达属于哪一个媒体类型和类别。将原始表达和共同表达的连接作为输入，输出是单个值，用于预测生成的公共表示是否真实，以及判别公共表示和数据表示之间的语义相关性。 $D_{FI}$ （ $D_{FT}$ ）试图判别相关类别的词嵌入 $s^l_n$ 是真实的数据，生成的共同表达、以及不相关类别的词嵌入 $s^{l'}_n$ 是假的。

（2）反向GAN:用来重构输入数据的原始表达，这使得公共表示保留数据原始结构，并且增强输入数据和语义空间之间的关系。

$G_{RI}$ , $D_{RI}$ , $G_{RT}$ , $D_{RT}$

反向生成模型：一些全连接层，学习common representation，以重构输入数据的原始表示（reconstruction representations ）。reconstruction representation：, ，所以 $r^i_n=G_{RI}(G_{FI}({f^i_n}))=G_{RI}(s^i_n)$ .（先由正向生成模型生成common representation ，再由反向生成模型生成reconstruction representation ）
反向判别模型：：一些全连接层。输入数据表示，输出单个值来预测数据表示是否真实。 $D_{RI}$ （ $D_{RT}$ ）试图判别图像原始表示是真实的，reconstruction representation 是假的。