零样本跨模态检索(Zero-Shot Cross-Modal Retrieval)信息论哈希

通常情况下,为了保证泛化能力,使用自然语言处理(NLP)模型中预定义的类别嵌入来构建一个共享空间。然而,本论文提出了一种完全不同的方法,从信息论的角度构建(或学习)一个共享哈希空间。该方法称为信息论哈希(Information-Theoretic Hashing,ITH),由两个级联模块组成:自适应信息聚合(Adaptive Information Aggregation,AIA)模块和语义保持编码(Semantic Preserving Encoding,SPE)模块。AIA模块根据相关信息原则自适应聚合不同模态数据的内在语义,并过滤掉冗余或无关信息;而SPE模块通过保持内在语义的相似性,使用逐元素的Kullback-Leibler(KL)散度生成不同模态的哈希编码。论文在三个基准数据集上进行了充分的实验,证明了ITH在零样本跨模态检索中的优越性。

使用逐元素的Kullback-Leibler(KL)散度生成不同模态的哈希编码

KL散度(Kullback-Leibler divergence),也称为相对熵(relative entropy),是一种用于衡量两个概率分布之间差异的度量方式。KL散度用来度量在给定一个概率分布下,用另一个概率分布来表示该分布的效果如何。

对于现实场景中的应用,零镜头跨模态检索(ZH-CMR)成为一个新的挑战。具体而言,EST-CMR的目标是通过转移从可见类中的多模态数据中学习到的知识,在看不见的类的异构数据之间执行检索。为了保证泛化,受流行的零拍摄图像分类方法的启发[18]-[20],来自预训练的自然语言处理(NLP)模型的类嵌入(例如,word 2 vec [21])被用作额外的引导信号以限定公共空间。因此,在训练过程中,当前的EST-CMR方法[22]-[25]优化模型,以约束看到的数据点围绕其相应的预定义类嵌入聚合(见图11)。1(a))。之后,在测试阶段,经过良好训练的模型还将围绕其对应的预定义类嵌入投射未见过类的数据点。从这个意义上说,知识从可见类转移到不可见类的成功主要取决于预定义公共空间的质量或可转移性。

在本文中,我们论证并实证证明,基于预定义类嵌入的最先进(SOTA)ZSCMR方法仍然存在模态差距(见图11)。(c)第1段。事实上,这些方法隐含地假设任何多模态数据的语义总是可以由它们预定义的类嵌入表示,从我们的角度来看,这在实践中可能会被违反。例如,“飞盘”在视觉上与“盘子”相似,但它们的用法却完全不同,这就导致了文本中的分歧。同时,“盘”在冠词中常与“叉”连用,但二者的视觉外观并不相似。此外,不同的语言和NLP模型可能会导致预定义类嵌入的分歧或不一致的关系。更糟糕的是,新的类可能不包含在先前训练的NLP模型中,这使得大多数现有的EST-CMR方法立即变得不可行。例如,2013年的word 2 vec模型无法对疾病“心脏肥大”进行向量化。由于上述原因,预定义的公共空间可能偏向于部分数据,从而导致模态间隙。

为了解决预定义的公共空间和异构数据的语义之间的潜在不兼容性,我们研究了从给定数据中构建或学习公共空间的可行性,而无需额外的NLP模型的指导。我们的主要想法很简单。作为人工智能的基础设施,已经建立了各种模态的预训练模型。最近的例子包括语音中的TERA [26]和视频中的MaskFeat [27]。由于具有数十亿参数和大量训练数据的大型网络结构,这些预训练模型提取的特征包含丰富的语义,并在相应模态的各种任务中表现出吸引人的性能。因此,如何精确地继承或保留这些单独预训练模型的特征的语义,以及如何减少特定数据集的语义不确定性或无关信息,是提高EST-CMR中哈希码泛化能力的关键。虽然很容易理解,但信息的“保存”和“减少”似乎不太容易处理,也很难实现。为此,我们利用香农信息论[28]的基本概念,并表明信息论的措施和原则提供了一种优雅的语言来描述这两个术语,并具有强有力的理论保证。例如,从分布差异的角度来看,分歧可以统计地测量保留信息的量;而熵则直接量化信息约简的程度。受信息理论学习[29]的最新进展的启发,我们开发了信息理论哈希(ITH),这是一种新的ZS-CMR模型,它可以在没有任何额外NLP模型指导的情况下从训练数据中学习构建公共汉明空间。我们提出的ITH的管道如图所示。3,主要由两个级联模块组成:(1)自适应信息聚合(AIA)模型;(2)语义保持编码(SPE)模型。具体而言,AIA通过从相关信息原则(PRI)[29],[30]中获得灵感,自适应地将丰富的多模态语义聚合到公共连续空间中,而SPE通过保留内在语义进一步将连续代码转换为二进制代码。

假设我们有一个跨模态检索任务,其中包括图像和文本两种不同的模态。我们希望将图像和文本的语义聚合到一个共同的连续空间中,以便能够在这个空间中进行跨模态的语义匹配和检索。

对于AIA模型的工作流程,它首先利用预训练的模型(如图像模态的卷积神经网络和文本模态的词嵌入模型)对图像和文本数据进行特征提取。这些特征提取模型已经通过大量的训练数据学习到了丰富的语义信息。

接下来,在AIA模型中,使用信息论的度量方法来评估聚合过程中的信息保留和减少。例如,可以使用散度来衡量图像和文本之间的分布差异,从而量化聚合过程中保留的信息量。同时,可以使用熵来度量在聚合过程中减少的信息量。

AIA模型根据这些度量,自适应地将图像和文本的语义聚合到一个共同的连续空间中。这意味着模型会将图像和文本的特征映射到一个共享的连续向量空间,使得具有相似语义的图像和文本在这个空间中更加接近。

通过这种方式,AIA模型能够将不同模态的语义信息整合到一个共同的连续空间中,实现了图像和文本之间的跨模态语义匹配和检索。在这个共同的连续空间中,可以使用各种相似度度量方法(如欧氏距离或余弦相似度)来衡量图像和文本之间的语义相似度,从而实现跨模态的检索任务。

需要注意的是,这只是一个简化的示例,实际的AIA模型可能会涉及更复杂的算法和技术来实现跨模态语义聚合。但这个例子可以帮助理解AIA模型如何将不同模态的语义聚合到一个共同的连续空间中。

1.ITH时第一个从信息论角度设计的aero shot cross modal retrieval 自适应从训练数据中学习公共空间一填充模型空隙 

2. 将原始的PRI从无监督公式化扩展到有监督 自然的集成到AIA模块中 以聚合不同模态的予以 从而无需额外的nlp模型知道

3.SPE模块通过逐元素的kl散度将连续代码优雅的转换为散列代码

总的相关性正则化项施加 以进一步减少冗余之间的不同维度的哈希码 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值