Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

解决问题:(1)单射嵌入(injective embedding)。当个别实例中存在歧义时,单射嵌入可能会受到影响。考虑一个具有多重含义/意义的模糊实例,例如,多义词和包含多个对象的图像。虽然每个意义/意义都可以映射到嵌入空间中的不同点,但是单射嵌入总是被迫找到一个点,这可能是所有需要的点的加权几何平均值(不准确)。对于视频和句子来说,这一问题变得更加严重,因为单个图像和单词中的歧义可以聚合和复合,严重限制了它在文本到视频检索等实际应用中的使用。(2)部分跨域关联。例如,文本语句可能只描述图像的某些区域,而忽略了其他部分,而视频可能包含与其关联的语句没有描述的额外帧。这些关联是隐式/隐藏的,使得文本描述所指的图像/视频的哪个部分不清楚。这对于单射嵌入尤其有问题,因为关于任何被忽略部分的信息都将丢失在映射点中,而且一旦映射,就无法从信息丢失中恢复

在这项工作中,我们通过将实例嵌入定义为一对一映射任务,提取实例的k个嵌入和优化映射函数,使其对模糊实例和部分跨模态关联具有鲁棒性,从而解决了上述问题。

主要思想:PIE-Net, Feature Extractors (RsNet, Bi-GRU, GloVe)

每一个模态都建立一个PIE-Net.首先Image encoder:ResNet-152的最后一个平均池化层形成局部特征Ψ(x)∈R7×7×2048,全连接层的输出得到了全局特征ϕxRH。Video encoder:ResNet-512对视频的T帧进行编码,得到Ψ(x)∈RT×2048,将得到的局部特征放到bi-GRU中,最后隐藏状态作为全局特征ϕxRH。Sentence encoder:使用GloVe生成L300-dim向量,作为局部特征Ψ(x)∈RL×300,将其喂到H个隐藏单元的bi-GRU,最后一个隐藏状态输出为全局特征ϕxRH。局部特征经过以下公式的一系列转换,最终形成Locally-guided features。

为避免信息冗余,将全局特征和转换后的局部特征进行融合,得到最终的K嵌入输出。如下式:。最终将两个模态的k嵌入输出,优化损失函数,,得到最小距离的一对一映射的结果。

创新点

1.PIE-Net网络解决了单射嵌入的问题;

2.提供了一个新的数据集MRW dataset。与现有的包含描述视频中视觉内容的句子的视频句子数据集不同,该数据集包含描述对句子中描述的某些情况可能做出的反应的视频,这使得视频关联有些模糊。

不足之处:受数据集的限制比较大,文本编码生成的特征是由conmmon-crawl dataset完成的,未设定最小距离的界限。若存在查找的最小距离所对应的样本不符合真实,则需去预估。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值