Video-text Matching:Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

该研究提出PIE-Net模型,为解决跨模态检索中多义词的问题,通过自注意力机制和残差学习融合局部和全局特征,生成多个实例表示。通过多实例学习损失和多样性损失优化,提高模型对部分跨模态关联的鲁棒性。
摘要由CSDN通过智能技术生成

背景

用于跨模态检索的多义词的视觉语义嵌入,论文被CVPR2019接收

摘要

visual-semantic embedding的目标是找到一个公共空间,在这个空间中相关的视觉和文本彼此之间比较接近。当前大多数方法都学习将实例映射到共享空间中单个点的内嵌式嵌入函数(映射是一对一的)。不幸的是,内射式嵌入不能有效地处理具有多种可能含义的多义词实例。最好情况下,它只能找到不同含义的平均的表达。
在这项工作中,作者提出了多义词实例嵌入网络(PIE-Nets),通过利用自注意力机制和 residual 学习,将局部引导的特征和全局的特征整合起来,能够计算同一个实例的多个不同表达。为了学到视觉语义的嵌入,我们把两个 PIE-Nets 结合起来,在多实例学习的框架中共同优化它们。

动机

之前的方法一对一映射解决多义词,存在的问题:
1.迫使映射到一个可能是错误的点,最好的情况,也只是多种不同含义的平均表达
2.部分跨域联系。例如一句话可能只描述了图像的一部分(这条caption只能与图像中部分regions完美对齐)
解决问题的方式:
把实例的嵌入问题定义成一个一对多的映射任务;
优化映射函数,使得其对模棱两可的实例和部分跨域的联系鲁棒。

框架

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值