《Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval》论文学习

Abstract
为了解决异构性差距和语义差距带来的挑战,我们提出了integrating Shannon information theory and adversarial learning.(香农信息理论),在异质性差距方面,我们将模态分类与信息熵最大化对立地结合起来。我们建立了一种模态分类器(作为鉴别器),根据文本和图像的不同统计特性来区分它们。该鉴别器利用其输出概率计算香农信息熵,用以衡量其所进行的模态分类的不确定性。此外,特征编码器(作为生成器)将单模态特征投影到共享空间中,并试图通过最大化其输出信息熵来愚弄鉴别器。这样,信息熵最大化逐渐减小了跨模态特征的分布差异,从而实现了一种域混淆状态,在这种状态下,鉴别器无法自信地对两种模态进行分类。为了减少语义差异,利用Kullback-Leibler (KL)散度和双向三元组损失来关联共享空间中特征间和模内的相似性。在此基础上,利用基于温度尺度的kl散度正则化项对数据不平衡引起的偏置标签分类器进行校正。通过四种深度模型在四种基准上进行了大量实验,验证了该方法的有效性。
在这里插入图片描述

Motivations
首先,将Shannon信息理论[8]与对抗学习相结合,减少异质性差异,构建更好的跨模表示学习嵌入空间。其次,结合Kullback-Leibler散度损失和双向三元组损失这两个损失函数,在特征嵌入过程中保持语义相似性,从而减少语义差距
为此,我们将信息熵预测器和模态分类器以对抗的方式结合起来。信息熵最大化和模态分类是两个以竞争目标训练的过程。由于图像是一个3通道的RGB数组,而文本通常是符号的,从图像或文本数据中提取的单模态特征具有不同的统计属性,可以用来区分这些特征所属的原始形态,因此,当这些共享空间中的特征以高置信度被正确地分类为原始模态时,它们的特征分布所传递的信息量就会更少,模态分类器的模态分类具有更低的不确定性。相反,当跨模态特征成为模态不变并表现出共性时,这些特征就不能被归为它们原本所属的模态。在这种情况下,共享空间中的特征分布传递了更多的信息内容和更高的模态不确定性。
据Shannon的信息论[8],我们可以通过计算信息熵来测量共享空间中的模态不确定性。这种基本的比例关系为缓和异质性差距提供了原则。为此,我们将模态不确定性测量整合到跨模态表示学习中。如图1所示,设计了一个模态分类器(下面我们称之为鉴别器)来分类图像和文本模态,而不是执行“真/假”二分类。该鉴别器还提供了计算跨模态特征分布信息熵的输出概率。在训练开始时,由于图像和文本的统计特性不同,识别器可以对它们进行高置信度的分类。相比之下,特征编码器(以下我们称之为一个发电机)项目功能到一个共享空间和试图愚弄鉴别器,让它执行一个不正确的共享空间的形态分类,直到功能融合大量进入混乱状态,最大化模式的不确定性。在此基础上,我们进一步在特征投影仪上使用相似性约束来减少语义差异。具体来说,通过实例标签作为监督信息,Kullback-Leibler (KL)散度丢失来保持图像和文本特征之间的语义相关性。更重要的是,我们考虑了数据不平衡的问题,并引入了一个基于温度尺度的KL-divergence正则化项来校准偏置标签分类器。然后,我们采用常用的双向三重组丢失和实例标签分类丢失(即分类交叉熵丢失)来获得良好的检索性能。
Our Contributions
首先,我们将信息理论和对抗学习结合到一个端到端的框架。我们的工作是首次探索信息理论在减少跨模态检索异质性差距方面的作用。该方法有利于构建一个共享空间,进一步学习跨模态特征之间的共性,可用于其他模态任务,如视频文本匹配。
其次,引入基于温度尺度的KL-divergence正则化术语来解决数据不平衡的问题,对有偏标签分类器训练进行校准,保证实例标签分类的准确性。据我们所知,我们不知道以前有任何关于解决检索数据集失衡问题的使用。
第三,我们使用双向三组损失来约束模内语义。除了这些模态内的限制,我们也考虑优化模态间的相似性。我们使用实例标签来构造监督矩阵。该矩阵通过最小化KL-散度来正则化投影图像(或文本)特征和文本(或图像)特征之间的语义相似性。这种跨模态约束更有效,因为它集中在一个小批量的所有跨模态特征分布的投影上。
kl散度(也称为相对熵)是描述两个概率分布之间差异的另一个流行标准。将差异最小化有利于保持特征之间的语义相似性。
最近,Shannon信息熵[8]已被用于执行诸如语义分割[13]和跨模态哈希检索[14]等任务。这些研究表明,**香农熵可以通过估计不确定性[8]来进行多模态表示学习。以生成式对抗网络为例,如果生成器使图像特征和文本特征接近,并使它们的差异最小化,那么鉴别器就会变得不确定或不自信,即具有较高的信息熵来预测每个特征来自哪个模态。**我们在之前的工作[14]中应用了这一原则来设计一个目标函数,以便在公共共享空间中最大化跨模态哈希码的域不确定性。利用信息熵训练的深度网络可以构造一种域混淆状态,从而有效地减小非均匀性差距。在这种状态的基础上,还可以进一步应用其他的损失函数,如排序损失,对特征相似度进行正则化。
Proposed Approach
目的是训练一个深度网络,使嵌入的特征具有Zi和Zt的模态不变和语义判别性,提高检索精度。
Integrating Information Theory and Adversarial Learning
Information Entropy and Modality Uncertainty Image

在这里插入图片描述
因此,如图2(a)所示,在共享空间中,有可能从概率更高的视觉模式(更确定的分类)识别特征,而不是从概率更低的文本模式(Pt=1−Pi(更不确定的分类)识别特征。换句话说,这些跨模态特征并没有紧密地交织在一起。因此,没有实现域混淆状态。反之,如果一个给定的特征不能区分该特征来自哪个模态,则表明该特征来自每个模态的概率相同(Pi =Pt)。在这种情况下,共享空间具有最高的不确定性,跨模态特征交织成一个域混淆状态,对应最高的信息内容。我们使用信息熵[8]来测量共享空间的不确定性。图2(b)说明了概率相等的两种模式导致最高的Shannon信息熵和信息含量。
模态不确定性是指分类的不可靠性,即识别器将图像特征和文本特征分为两种模态。与Shannon信息熵[8]成正比,如图2©所示。基于此观测值[14],我们设计了以信息熵为判据的输出模态不确定性判别器。最大化信息熵意味着识别器对图像和文本特征的原始形态进行分类时变得最不自信,从而最大限度地减小异质性差距。
Adversarial Learning and Information Entropy
KL-divergence for Cross-modal Feature Projection
为了减少语义差异,我们使用KL-divergence来表征弹出的跨模态特征(图1中的Zi和Zt)和从它们的实例标签计算出的监督矩阵,
在这里插入图片描述
i->t
在这里插入图片描述
得到一个相似矩阵Ai→t,公式为
在这里插入图片描述
在这里插入图片描述
然后,我们利用KL散度来刻画归一化矩阵与监督矩阵的区别,即KL((f(Zi, Zt)||f(Yl, Yl))。

Implementation and Optimization
在这里插入图片描述
算法结合信息熵和对抗性学习来缓解异质性差异,并结合损失函数项(即kl发散损失、分类交叉熵损失和双向三重态损失)来保持跨模态特征之间的语义相关性
4.1. Combining Information Theory with Adversarial Learning
在这里插入图片描述
在这里插入图片描述
KL-divergence for Similarity Preserving
4.3. Instance Label Classification
4.3.1. Categorical Cross-entropy Loss Label
4.3.2. KL-divergence for Data Imbalance Label
4.4. Bi-directional Triplet Constraint

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值