《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习

摘要

本文提出了一种新的方法 modal-adversarial hybrid transfer network (MHTN),它提出的主要目的是:实现知识从单模态源域向目标源域进行转移,并学习跨模态的公共表示。
它有端到端两个子网络结构,第一是提出了一种模态共享知识转移子网络,以星型网络结构将知识从源域中的单个模态共同转移到目标域中的所有模态,从而散布与模态无关的补充知识以促进交叉模态共同表示学习。
第二提出了一种模态对抗式语义学习子网,在公共表示生成器与模态鉴别器之间构建对抗训练机制,使通用表示形式对语义具有判别性,而对模态则是无区别的,从而在传输过程中增强了跨模态语义的一致性。

跨模式的主要挑战是异质性差距,跨模式检索的主流是用通用表示法表示不同模式的数据。

Overview of the MHTN

在这里插入图片描述

MODAL-ADVERSARIAL HYBRID TRANSFER NETWORK

MHTN的主要目的是学习一种公共表示R={{RI, RT, RA, RV, RM},对于所有模态,R中的特征维都是相同的,因此可以通过直接计算它们之间的距离来获得跨模态相似性。

1 Modal-Sharing Knowledge Transfer Subnetwork

执行从单模式源域到跨模式目标域的知识转移,每次所输入的样本实例是密切相关的,每个交叉模式文档中的实例将并行输入到网络中。
the structure of this subnetwork
在这里插入图片描述
1)Single-Modal Knowledge Transfer
它是由单模式和跨模式传输部分组成的混合传输结构。采用特征自适应方法,以最小化两个域之间的图像的最大平均差异(MMD),
在这里插入图片描述
这儿在网络图中有fc6-fc7,所以loss为
在这里插入图片描述
通过最小化MMD,模型将被引导以匹配目标域的分布,以便源域中的知识可以有效地转移到目标。

1.1 )source domain supervision loss
并保留源域中的语义约束,以避免因域差异而过度拟合。
在这里插入图片描述
通过最小化LossST和LossSDS,域差异可以有效地减少,并且可以将源域中的补充语义信息转移到目标域中,以指导网络培训。
2)Cross-Modal Knowledge Transfer
旨在对齐他们的代表并实现知识共享,因此,每一对都可以表示为(dIIj,dXl j),其中为了表示交叉模态成对的差异,采用图像的特定表示层与其他模态之间的欧几里得距离,从而形成星形网络结构(dIlj,dXlj)的跨模态成对差异表示为
在这里插入图片描述
通过优化LossCT,可以减少跨模式的成对差异,以实现跨模式的知识转移。我们将该子网的输出表示为Zc = {(zIlj,zTl j,zA1 j,zVl j,zMl j)} j = 1,这将进一步输入到模态对抗语义学习子网络中。

2 Modal-Adversarial Semantic Learning Subnetwork

在这里插入图片描述
1) Semantic Consistency Learning
该子网的结构如图4所示。Zc将被馈送到共享的完全连接的层(公共表示层)以生成公共表示。 然后有两个损失分支机构来推动网络培训。由于所有模态共享相同的公共表示层,因此可以在目标域中的监督信息的指导下确保跨模态的语义一致性。 为了实现这一目标,我们采用完全连接的层作为具有softmax损失函数的通用分类层。 语义一致性损失定义如下:
在这里插入图片描述
2) Modal-Adversarial Consistency Learning
模态鉴别器旨在区分不同的模态,而通用表示生成器则减少了跨模态表示差异,以混淆模态鉴别器,作为一种对抗训练风格。
在这里插入图片描述
在这里插入图片描述

3. Optimization

在这里插入图片描述
有先最小化,然后最大化训练,有对抗训练的style
loss依次为
1.源image和目标image
2.源label
3.目标image和其他模态,相当于目标image当做了桥梁
4.对抗循环一致,经过生成器label一致
4.经过生成器,判别器依旧判别模态

总结
本文写的清晰透彻,是一篇好文,不过细节处还未深挖,所以决定跑一跑代码,再做理解笔记总结。

基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值