摘要
跨模态检索方法为来自多个模态(通常来自视觉和语言域)的样本构建公共表示空间。对于图像及其标题,通信的多样性使任务特别具有挑战性。给定一个图像(分别是标题),有多个标题(分别是图像)同样有意义。在本文中,我们认为确定性函数不足以捕捉这种一对多对应关系。相反,我们建议使用概率交叉模态嵌入(PCME),其中来自不同模态的样本表示为公共嵌入空间中的概率分布。由于COCO等常见基准测试存在跨模态匹配的非穷举注释问题,因此我们建议对CUB数据集上的检索进行额外评估,CUB数据集是一个较小但干净的数据库,其中对所有可能的图像标题对进行注释。我们广泛地消融了PCME,并证明它不仅提高了检索性能,而且还提供了不确定性估计,使嵌入更易于解释。
介绍
因此,通用表示必须处理这样一个事实,即图像可能与多个不同的标题匹配。相反,给定一个标题,可能会有多种视觉形式的标题表现。图像-文本对之间的多重对应部分源于模式的不同性质。
我们建议使用概率嵌入将图像及其标题表示为适合跨模式检索的公共嵌入空间中的概率分布。这些分布优雅地模拟了由于视觉场景中出现的概念的多样性而产生的不确定性,并隐式地执行这些概念之间的多对多匹配。
视觉场景的所有不同组成部分都被彻底地、被动地捕捉在一张照片中,而语言描述则是有意识地选择关键相关概念以从场景中报告的产物。总之,需要一个用于图像和文本模式的公共表示空间来建模两个方向上的一对多映射。
依赖普通函数的标准方法不满足这一必要条件:它们只能量化一对一的关系。
在这项工作中,我们提出了概率交叉模态嵌入(PCME)。我们认为概率映射是一种有效的表示工具,它不需要像基于检测的方法那样进行显式的多对多表示,并进一步提供了许多优点。首先,PCME产生不确定性估计,从而产生有用的应用,如估计查询的难度或失败概率。其次,概率表示带来了更丰富的嵌入空间,集合代数在其中有意义,而确定性代数只能表示相似关系。第三,PCME是确定性检索系统的补充。
使用CUB[55]和更合理的评估指标。
我们的贡献如下。
(1)提出概率交叉模态嵌入(PCME),以恰当地表示联合嵌入空间中的一对多关系,实现交叉模态检索。
(2)找出现有跨模态检索基准的不足,并提出替代解决方案。
(3)我们使用PCME提供的不确定性估计分析关节嵌入空间,并展示如何直观的属性产生。
方法
PCME的两个关键组成部分:联合视觉文本嵌入和概率嵌入。
Joint visual-textual embeddings
视觉编码器:我们使用ResNet图像编码器。 全局平均池(GAP)层,进行了修改,使其能够预测一个分布,而不是一个点。
文本编码器:我们使用预先培训过的GLOVE,句子级特征由一个双向GRU在glove特征之上给出。
损失:contrastive or triplet loss
多义视觉语义嵌入(PVSE):旨在为跨模态检索建立一对多匹配模型。PVSE在视觉和文本特征之上采用了一个多头注意块来编码每个模态可能的嵌入。
PVSE通过多实例学习(MIL)目标学习视觉和文本编码器
单个模态的概率嵌入
我们的PCME将每个样本建模为一个分布。它建立在模糊实例嵌入(HIB)[37]的基础上,这是一种单模态方法,用于将实例表示为分布。HIB是对比损失的概率模拟[12]。
损失: Soft contrastive loss.
p是匹配概率
因子分解匹配概率:蒙特卡罗估计
欧几里德距离的匹配概率:
概率交叉模态嵌入
我们描述了如何学习一个关节嵌入空间,该空间允许使用PCME进行概率表示
模型架构
感觉就是通过标准差和方差来联合嵌入空间的。
我们用平均向量和对角协方差矩阵来参数化正态分布
- 当地注意分支:
我们用平均向量和对角协方差矩阵将正态分布参数化
就是a图,视频通过GAP&FC计算标准差特征,通过self——attention计算方差特征,然后B图那样,方差经过sigmoid,跟最开始的标准差加起来,类似于resnet,在经过LN,L2然后得到结果。
C图就是不使用。
- 软交叉模态对比损耗:
- 其他正则化:我们通过在学习分布和标准正态分布之间引入KL散度损失来防止学习方差崩溃为零
- 小批量随机梯度下降:
- 测量实例不确定度:每个输入所预测的协方差矩阵代表了数据固有的不确定性。对于标量不确定性度量,我们取协方差矩阵的行列式,或等价于σ的几何平均值。直观地说,这测量了分布的体积。
我们的损失是如何处理多重性的呢?
结论
我们介绍了概率跨模态嵌入(PCME),它学习嵌入空间中多模态数据的概率表示。概率框架提供了一个强大的工具来建模图像标题对中广泛存在的一对多关联。据我们所知,这是第一个将概率嵌入用于多模态任务的工作。我们对PCME进行了广泛的烧蚀,结果表明,它不仅提高了检索性能,而且还提供了不确定性估计,使嵌入更易于解释。