Modal-adversarial Semantic Learning Network for Extendable Cross-modal Retrieval 阅读笔记

重点是可扩展的(extendable):训练和测试集中的实例具有不相交的类。

一个新的框架:Modal-adversarial Semantic Learning Network (MASLN) 模态对抗语义学习网络。MASLN包括两个跨模态重建和模态对抗语义学习的子网络。前者以类嵌入准则作为重构过程中的辅助信息,通过重构各模态数据,最小化跨模态分布差异。后者生成对模态不加区分的语义表征,同时通过对抗性学习机制将模态与共同表示区分开来。对两个子网络联合训练,以提高公共子空间中的跨模态语义一致性,并将知识传递到目标集中的实例。

 

Introduction

 

Figure 1 (a):大多数现有的跨模态检索方法中常用的原理,我们称之为不可扩展的跨模态检索原理:需要一组实例,每个实例都是指定类标签的图像-文本对的形式。然后将集合分为源集和目标集,其中每个集具有来自所有类的不相交的图像-文本对。从训练阶段的源集中学习公共语义空间,然后将其应用于目标集以生成实例的公共表示。最后,可以通过共同表示来测量实例的跨模态相似性,并且可以执行跨模态检索。在这种情况下,目标集中的每个实例都属于源集中的一个预定义类(总共10个类)。然而,这种假设在实践中并不总是存在,目标集可能存在源集没有cover的类别。

Figure 1 (b):提出的新原理,称为可扩展的跨模态检索:源集和目标集具有来自不相交类的实例。例如,源集中的五个类不与目标集中的类重叠,模型在源集中学习,并在目标集上直接测试,评估模型的可扩展性。类似于CV中的零样本学习,不过零样本学习专注于单模态数据中的知识转移。

Figure 2:Modal-adversarial Semantic Learning Network 的流程图,包括跨模态重构和模态对抗语义学习两个子网络。绿色箭头表示重构流,红色箭头表示语义学习箭头。端到端的结构,由两个子网络联合训练以相互促进并学习跨模态公共表示。

主要贡献:

  • 提出了跨模态重建子网以使用条件自动编码器最小化跨域分布差异以重建每个模态。与现有方法使用自动编码器来重建模态数据不同,条件自动编码器将类嵌入作为重建过程中的辅助信息。它有助于将学习的共同表示中的类的区分结合起来,并使知识从源集转移到目标集(It helps incorporate the discrimination of classes in the learned common representation, and enables the knowledge tra
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值