Video-text Matching:Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

薛定猫的谔w

于 2020-11-22 16:04:17 发布

阅读量581

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_tclz/article/details/109955267

版权

该研究提出PIE-Net模型，为解决跨模态检索中多义词的问题，通过自注意力机制和残差学习融合局部和全局特征，生成多个实例表示。通过多实例学习损失和多样性损失优化，提高模型对部分跨模态关联的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

用于跨模态检索的多义词的视觉语义嵌入，论文被CVPR2019接收

摘要

visual-semantic embedding的目标是找到一个公共空间，在这个空间中相关的视觉和文本彼此之间比较接近。当前大多数方法都学习将实例映射到共享空间中单个点的内嵌式嵌入函数（映射是一对一的）。不幸的是，内射式嵌入不能有效地处理具有多种可能含义的多义词实例。最好情况下，它只能找到不同含义的平均的表达。
在这项工作中，作者提出了多义词实例嵌入网络（PIE-Nets），通过利用自注意力机制和 residual 学习，将局部引导的特征和全局的特征整合起来，能够计算同一个实例的多个不同表达。为了学到视觉语义的嵌入，我们把两个 PIE-Nets 结合起来，在多实例学习的框架中共同优化它们。

动机

之前的方法一对一映射解决多义词，存在的问题：
1.迫使映射到一个可能是错误的点，最好的情况，也只是多种不同含义的平均表达
2.部分跨域联系。例如一句话可能只描述了图像的一部分(这条caption只能与图像中部分regions完美对齐)
解决问题的方式：
把实例的嵌入问题定义成一个一对多的映射任务；
优化映射函数，使得其对模棱两可的实例和部分跨域的联系鲁棒。

框架

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。