《北大Cross-modal retrieval》3.28论文总结

课外笔记总结
跨模态检索通常需要将不同模态数据嵌入到一个公共表示空间中,以便进行对齐、比较和融合,但如何找到最佳嵌入空间是一个极其困难的问题。不同模态之间的精细对齐问题,以及多模态预训练的有效架构,这些问题依然具有挑战性,未来多模态方向会向可落地、可迁移、少样本的多模态模型系统展开。
当前多模态数据由于其本身结构和特点(语义抽象 类别细化 非结构化)主要面临三大问题:
(一)语义鸿沟 (semantic gap) 指的是计算机表示系统与人类认知系统对同一个概念形成不同描述的差异。
举例:CV中,给个图像,唯一可用的是low-level的像素信息。即使是对形状或者颜色的简单的语言表示(比如圆形和绿色),也需要完全不同的数学形式化方法并加以适当的方式组合和参数化。到了更复杂的概念,就需要更复杂的形式化方法。这些方法既不直观也不可靠,和人类认知形成的差异,就是语义鸿沟。
(二)异构鸿沟 (Heterogeneity Gap) 指是由于图像、视频等不同媒体的底层数据结构不一致(图像一般是三维的张量,文本数据是个词向量的序列等),导致的一系列问题。
(三)数据量大:深度网络的训练往往需要大量的训练样本,这是个经常被诟病的问题。
单模态的数据标注就已经足够昂贵,如果是配对的多模态数据则更不敢想象。已经有不少研究在探索少样本学习和多模态学习结合(零样本绝大部分都属于多模态学习,但少样本未必),跨模态知识迁移等方向来摆脱过高的标注依赖。
小小总结一下ZSL(零次学习)问题的定义。利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。

论文笔记
1.《Zero-Shot Cross-Media Embedding Learning With Dual Adversarial Distribution Network》
Abstract
受制于有标签数据集的规模,所以零样本跨模态检索成为当前最具有研究前景的方向,可以通过已见类别(see categories)检索未见类别(unseen categories),其中最大的挑战就是异构鸿沟(Heterogeneity Gap)和语义鸿沟 (semantic gap).
Dual Adversarial Distribution Network(DADN)主要贡献如下:
(1)首先,提出了zero-shot cross-media dual generative adversarial networks architecture,其中两种生成对抗网络用于共同的嵌入生成和表示重构形成双重(dual)过程。二元GANs相互促进语义和底层结构信息的建模,从而在异构分布的不同类别上进行泛化,促进相关学习。
(2)提出了基于最大均方差准则的分布匹配方法,并将其与二元GANs相结合,增强了普通嵌入和类别词嵌入之间的分布匹配。
(3)提出了对抗性的媒体间度量约束,并引入了媒体内的损失和四重损失,进一步对媒体间的相关性信息进行了建模,提高了语义排序能力。
文章关注于零样本跨模态检索的问题,它的目标是在零样本的情况下进行多种媒体检索,也就是说新的样本在有限数据集下可以被检索到,如图所示:

DADN approach
在一个统一的框架中进行零次样本学习和相关性学习,来生成通用的嵌入,下图为DADN的概述图:

DADN方法使用了类别嵌入技术,还设计了双向GANs的二元结构,由一个 semantic GAN (Se-GAN) and 一个reconstruction GAN (Re-GAN)组成
Se-GAN从输入的图像和文字样本中进行学习,通过相似的语义空间的分布匹配去生成common Embedding.并且在对抗训练当中,结合了媒体内部的度量约束
Re-GAN主要是从生成的common Embedding中重构生成输入图片和文字样本的原始表示
主要的贡献
1.Zero-shot cross-media dual GANs architecture.
2.Distribution matching with MMD criterion.
3.Adversarial inter-media metric constraint.

(1)Zero-shot cross-media dual GANs architecture,对于每个模态都采用了一个二元GAN结构包含了两种GANs.其中Se-GAN先从读入的数据描述中产生公共的embeddings,Re-GAN对生成的公共Embedding进行变换以重构原始数据表示。二元GAN形成了对类别语义信息和底层数据结构信息进行建模的双重过程,增强了对已见和未见类别的泛化。Se-GAN和Re-GAN相互协作,促进了相关学习,提高了零样本跨媒体检索的精度。
(2)Distribution matching with MMD criterion,基于最大均方差准则(MMD)的分布匹配。利用MMD准则对GAN模型进行优化。Se-GAN的MMD准则增强了普通嵌入和category word-embedding之间的分布匹配,它利用category word-embedding的知识来处理已见和未见类别之间的不一致语义。Re-GAN的MMD准则增强了重建表示与原始数据表示之间的分布匹配,从而保证了重建质量以捕捉数据的底层结构。
(3)Adversarial inter-media metric constraint,在对抗性训练过程中,提出了一个媒体间度量约束,包括媒体间损失(inter-media loss)和四重损失(quadruplet loss)。inter-media loss使得所生成的embedding与所生成的媒体类型无法区分,以增强异质分布之间的相关性。quadruplet loss进一步模型化跨模态语义的相似和不同,保留了相对的相似度排序信息
(4)
在此熟悉一下对抗攻击网络

其中x是real data,z是noise input.执行minimax来实现全局优化

OUR DADN APPROACH
1.在对抗训练过程中,只能使用可见的类别数据集Dsd,在测试过程中,看的见的类别(see categories)和(unseen categories)都会被评估(Duq–>Dud)and (Dsq–>Dsd),具体tensor细节如下图:

Se-GAN和Re-GAN的全连接层维度变化如下图:

2.loss主要分为5个部分
分布匹配MMD loss (Se-GAN)

Inter-Media度量loss

Quadruplet loss(在生成loss中构建语义的相似性和不同)

Re-GAN loss

此外还有额外的循环一致损失cyc

它旨在进一步加强原始表示和重构表示的correlation learning

2.《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》
Abstract
现在基于神经网络跨模态搜索方法,受制于有限的跨模态训练数据集,会导致训练效率的不高和导致过拟合问题。而大规模的跨模态数据集的收集与标注非常费时,所以最大化的利用单模态的Knowledge去促进跨模态搜索是非常重要的。所以本文提出了
a modal-adversarial hybrid transfer network (MHTN),它主要实现单模态源域向跨模态目标域的knowledge迁移,以及跨模态的公共表示。它是一个端到端的二元子网络结构。
1.提出了a modal-sharing knowledge transfer subnetwork,通过一个star network结构完成单模态source domain向目标模态domain的transfer,它提取出了与模态无关的补充知识来加强跨模态的公同表示学习。
2.提出了a modal- adversarial semantic learning subnetwork,在共同表示生成器和模态判别器之间构建对抗训练机制,使得共同表示对于语义来说是有区别的,对模态是无区别的,从而在迁移过程中加强了跨模态语义的一致性。
MHTN的概述图如下图所示:

MHTN的overview
1.提出Modal-sharing knowledge transfer subnetworks,用星网络结构来最小化跨域分布差异和跨模态成对差异,这是single-modal source domain to the cross-modal target domain的综合迁移过程。这种综合的迁移结构能够把knowledge从一个大规模的单模态数据集源域向多模态数据集目标域迁移。提取与模态无关的补充信息去缓解跨模态数据集不足的问题。
2.提出Modal-adversarial semantic learning subnetworks,在进行迁移过程中,在共同表示生成器和模态判别器之间构建对抗训练机制。前者的目的是生成语义表示,其与模态是不可区分的,而后者是来区分模态的公共表示,两者相互竞争相互促进。它使得学习到的公共表示对于语义是可区分的,但对于模态是不可区分的,因此高效的加强了跨模态的语义一致性和提升了检索精度。

MHTN的贡献
1.本文新提出了模态对抗训练策略,在迁移过程中一个模型判别器对抗公共表示生成器,它旨在解决来自非对称转移范式的信息不平衡问题,并增强目标域中的跨模式语义一致性。
2.提出了five-pathway新型的网络结构,它能够对多达五种模式的够执行知识迁移和公共表示学习,从而能够让他们自然的对齐和与彼此迁移,提高了知识迁移的宽度。

MODAL-ADVERSARIAL HYBRID TRANSFER NETWORK

1.Single-Modal Knowledge Transfer
此部分的从源域到目标域的知识迁移,是通过目标域中共享的模态(image)作为桥梁实现的。
Loss如下:

另外保留源域中的语义约束,以避免在域差异上的过度拟合

通过最小化LossST和LossSDS,域差异可以有效地减少,并且可以将源域中的补充语义信息转移到目标域中,以指导网络训练。
2.Cross-Modal Knowledge Transfer
为了让成对的数据的网络输出是相似的,它旨在对齐他们的表示和实现知识共享。跨模态的transfer loss如下:

通过最优化LossCT,跨模态的成对差距能够减小来实现跨模态的知识迁移。
Modal-Adversarial Semantic Learning Subnetwork

1.Semantic Consistency Learning
Semantic Consistency loss

通过最优化LossSC,我们可以共同提高所有模式的分类准确性,从而保留跨模式目标域中包含的语义一致性。
2.Modal-Adversarial Consistency Learning
模态鉴别器旨在区分不同的模态,而通用表示生成器则减少了跨模态表示差异,以混淆模态鉴别器,作为一种对抗训练风格。

通过最大化LossMC,我们可以显着减小模态之间的异构差距,并加强公共表示的一致性。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值