Probabilistic Embeddings for Cross-Modal Retrieval

题目:Probabilistic Embeddings for Cross-Modal Retrieval
作者:Sanghyuk Chun
不确定估计
hedged instance embedding
对比损失
变分自编码

一、要解决的问题(研究动机)
确定的函数不能很好地捕获一对多的对应关系。
在这里插入图片描述

二、研究目标
提出PCME(跨模态概率嵌入),将不同模态下的样本表示为同一嵌入空间下的概率分布。

三、技术路线
在这里插入图片描述
1、视觉-文本联合嵌入
(1)视觉编码器fv
输入图片i,得到经过GAP之前的输出:
在这里插入图片描述
经过GAP,预测得到一个分布,而不是一个点:
在这里插入图片描述
(2)文本编码器ft
输入标题c,通过预训练的GloVe得到单词级描述符,其中L为标题中词的个数:
在这里插入图片描述
输入GloVe的顶层特征,通过双向循环门控单元得到语句级特征t:
在这里插入图片描述
(3)损失
嵌入特征通常用对比损失和三元组损失来学习。
(4)Polysemous visual-semantic embeddings (PVSE)
多义视觉-语义嵌入
运用多头注意力,为每个模态编码K个可能的嵌入(图像、文本形式相似):
在这里插入图片描述

2、概率嵌入
(1)单域HIB
HIB是对比损失的概率模拟,训练的概率匹配模块既可以保留成对的语义相似度,而且还可以表示数据固有的不确定性。组成部分如下:
(i)Soft contrastive loss(样本):约束编码器,令编码器提取产生的特征嵌入更好
在这里插入图片描述
(ii)分解匹配概率(从嵌入分布中采样)
在这里插入图片描述
(iii)用距离衡量匹配概率
在这里插入图片描述
(2)跨域PCME
在这里插入图片描述
(i)模型结构
局部注意力支路
包含基于空间特征集合的自注意力和一个sigmoid激活函数层。

跨模态软对抗损失
匹配损失与单模态下类似,并根据公式(4)的分布计算:
在这里插入图片描述

衡量实例级不确定性
为每个输入预测的协方差矩阵表示了数据固有的不确定性。
为了定量衡量不确定性,采用方差矩阵的行列式或方差的几何平均。

(ii)对多样性的处理
通过梯度分析得知公式(1)的损失如何处理多样性与学习不确定性。
在这里插入图片描述
w给正确预测匹配的采样对一个更高的权重,因此,只要有正确的匹配预测,错误的匹配预测就不会被过分惩罚,这样有助于更丰富的采样。

四、提出方案的依据
概率分布可以产生更丰富的嵌入空间;
概率匹配可以表示数据固有的不确定性;
通过在分布中采样可以产生更多的匹配结果。

五、实验结果
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值