背景
用于跨模态检索的多义词的视觉语义嵌入,论文被CVPR2019接收
摘要
visual-semantic embedding的目标是找到一个公共空间,在这个空间中相关的视觉和文本彼此之间比较接近。当前大多数方法都学习将实例映射到共享空间中单个点的内嵌式嵌入函数(映射是一对一的)。不幸的是,内射式嵌入不能有效地处理具有多种可能含义的多义词实例。最好情况下,它只能找到不同含义的平均的表达。
在这项工作中,作者提出了多义词实例嵌入网络(PIE-Nets),通过利用自注意力机制和 residual 学习,将局部引导的特征和全局的特征整合起来,能够计算同一个实例的多个不同表达。为了学到视觉语义的嵌入,我们把两个 PIE-Nets 结合起来,在多实例学习的框架中共同优化它们。
动机
之前的方法一对一映射解决多义词,存在的问题:
1.迫使映射到一个可能是错误的点,最好的情况,也只是多种不同含义的平均表达
2.部分跨域联系。例如一句话可能只描述了图像的一部分(这条caption只能与图像中部分regions完美对齐)
解决问题的方式:
把实例的嵌入问题定义成一个一对多的映射任务;
优化映射函数,使得其对模棱两可的实例和部分跨域的联系鲁棒。