关注公众号,发现CV技术之美
本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval』,多伦多大学提出基于文本的视频聚合方式,《X-Pool》,在视频文本检索上达到SOTA性能!
详细信息如下:
论文链接:https://arxiv.org/abs/2203.15086
项目链接:https://layer6ai-labs.github.io/xpool/
01
摘要
在文本-视频检索中,目标是学习文本和视频之间的跨模态相似函数,该函数将相关文本-视频对的排名高于不相关对。然而,视频本身所表达的信息比文本要广泛得多。
相反,文本通常捕获整个视频的子区域,并且在语义上与视频中的某些帧最为相似。因此,对于给定的文本,检索模型应该关注文本在语义上最相似的视频子区域,以便进行更相关的比较。然而,大多数现有作品在不直接考虑文本的情况下聚合了整个视频。常见的文本不可知聚合方案包括帧上的平均池化或自注意,但这些可能会编码给定文本中未描述的误导性视觉信息。
为了解决这个问题,本文提出了一个名为XPool的跨模态注意力模型,该模型在文本和视频帧之间进行推理。本文的核心机制是对文本进行scaled dit product attention,以关注其语义上最相似的帧。然后,根据文本在帧上的注意权重生成聚合视频表示。
02
Motivation
TikTok、YouTube和Netflix等视频内容平台的出现,使视频在世界各地得以大规模推广。检索与基于文本的搜索查询在语义上最相似的视频的能力使我们能够快速找到相关信息,并理解大量视频数据。
文本视频检索是解决这一问题的一种方法,其目标是让模型学习文本和视频之间的相似性函数。为了计算两种模态之间的相似性,一种常见的技术是首先将文本和视频嵌入到联合潜在空间中,然后应用距离度量,例如文本和视频嵌入之间的余弦相似性。
然而,这两种模态之间存在一个重要的差异,使得这种直接比较具有挑战性。视频本身比文本表达的信息范围要广得多,因此文本通常无法完全捕获视频的全部内容。相反,文本在语义上最类似于视频的子区域,表示为帧的子集。根据给定的文本,语义最相似的帧会有所不同,因此多个同等有效的文本可以匹配特定的视频。
图1展示了来自MSR-VTT数据集的示例视频帧。这些帧描绘了国际新闻中的各种场景,表达了不同的视觉内容。此外,图1展示了与该视频相关的多个字幕,并观察到每个字幕最适合匹配不同的视频帧,但似乎与其他视频帧无关。
基于这一