CVPR2021-《T2VLAD》-浙大&百度&悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!...

T2VLAD是一种针对文本视频检索的全局-局部序列对齐方法,通过局部和全局对齐提高相似性度量,降低计算成本,超越SOTA水平。该方法利用多模态视频序列和文本特征自适应聚合,实现局部和全局的跨模态相似性比较。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 写在前面

文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容。这个问题的关键是在联合嵌入空间中测量文本视频的相似性。然而,大多数现有的方法只考虑全局交叉模态相似性,忽略局部细节。有些作品通过跨模态局部匹配和推理结合了局部比较。这些复杂的操作会带来巨大的计算量。

在本文中,作者设计了一种有效的全局-局部对齐方法 。多模态视频序列和文本特征通过一组共享语义中心自适应聚合。计算同一中心内的视频特征和文本特征之间的局部交叉模态相似性。这种设计实现了细致的局部比较,并降低了每个文本-视频对之间交互的计算成本。

此外,作者还提出了一种全局对齐方法,以提供与局部角度互补的全局跨模态测量。全局聚合的视觉特征还提供了额外的监督,这对于优化可学习语义中心是必不可少的。作者在三个标准文本视频检索基准上实现了一致的改进,并以明显的优势超越了SOTA水平。

 1. 论文和代码地址

caf25482f68f0dc169cb8b2d674c094c.png

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

论文地址:https://arxiv.org/abs/2104.10054

代码地址:未开源

 2. Motivation

a62ae1e44bff7f1cbd385de51ad21329.png

视频由于其丰富的多模态内容和时间动态性而成为信息量最大的媒体之一。文本视频检索系统使人们能够通过简单自然的交互方式搜索视频。实现视频跨模态检索的一个方向是基于度量学习的文本视频相似性度量。

在这种情况下,通常的做法是将描述和视频都嵌入到联合嵌入空间中。大多数现有作品是将描述和视频内容编码为全局表示,并从全局角度比较它们的相似性。这些方法侧重于学习有效的语言和视频表示,但忽视了细粒度语义对齐

其他一些工作利用复杂的跨模态匹配操作来利用局部细节并对齐多个语义线索。他们手动设计了三个级别的语义,包括事件、动作和实体。然而,由于成对匹配操作代价昂贵,这些方法需要较高的计算成本

在本文中,作者提出了一种有效的文本-视频检索的全局-局部序列对齐方法。从局部角度 来看,作者的目标是利用一些可学习的语义主题来共同总结文本和视频。与将文本描

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值