关注公众号,发现CV技术之美
▊ 写在前面
文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容。这个问题的关键是在联合嵌入空间中测量文本视频的相似性。然而,大多数现有的方法只考虑全局交叉模态相似性,忽略局部细节。有些作品通过跨模态局部匹配和推理结合了局部比较。这些复杂的操作会带来巨大的计算量。
在本文中,作者设计了一种有效的全局-局部对齐方法 。多模态视频序列和文本特征通过一组共享语义中心自适应聚合。计算同一中心内的视频特征和文本特征之间的局部交叉模态相似性。这种设计实现了细致的局部比较,并降低了每个文本-视频对之间交互的计算成本。
此外,作者还提出了一种全局对齐方法,以提供与局部角度互补的全局跨模态测量。全局聚合的视觉特征还提供了额外的监督,这对于优化可学习语义中心是必不可少的。作者在三个标准文本视频检索基准上实现了一致的改进,并以明显的优势超越了SOTA水平。
▊ 1. 论文和代码地址
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
论文地址:https://arxiv.org/abs/2104.10054
代码地址:未开源
▊ 2. Motivation
视频由于其丰富的多模态内容和时间动态性而成为信息量最大的媒体之一。文本视频检索系统使人们能够通过简单自然的交互方式搜索视频。实现视频跨模态检索的一个方向是基于度量学习的文本视频相似性度量。
在这种情况下,通常的做法是将描述和视频都嵌入到联合嵌入空间中。大多数现有作品是将描述和视频内容编码为全局表示,并从全局角度比较它们的相似性。这些方法侧重于学习有效的语言和视频表示,但忽视了细粒度语义对齐。
其他一些工作利用复杂的跨模态匹配操作来利用局部细节并对齐多个语义线索。他们手动设计了三个级别的语义,包括事件、动作和实体。然而,由于成对匹配操作代价昂贵,这些方法需要较高的计算成本 。
在本文中,作者提出了一种有效的文本-视频检索的全局-局部序列对齐方法。从局部角度 来看,作者的目标是利用一些可学习的语义主题来共同总结文本和视频。与将文本描