X-Pool：多伦多大学提出基于文本的视频聚合方式，在视频文本检索上达到SOTA性能！（CVPR 2022）...

最新推荐文章于 2023-03-07 16:38:38 发布

我爱计算机视觉

最新推荐文章于 2023-03-07 16:38:38 发布

阅读量900

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/124833863

版权

本文介绍了多伦多大学在CVPR 2022上提出的X-Pool模型，该模型通过跨模态语言-视频注意力在文本视频检索中达到SOTA性能。X-Pool关注与文本语义最相似的视频帧，解决了现有方法中忽略文本条件的视频聚合问题。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval』，多伦多大学提出基于文本的视频聚合方式，《X-Pool》，在视频文本检索上达到SOTA性能！

详细信息如下：

论文链接：https://arxiv.org/abs/2203.15086
项目链接：https://layer6ai-labs.github.io/xpool/

摘要

在文本-视频检索中，目标是学习文本和视频之间的跨模态相似函数，该函数将相关文本-视频对的排名高于不相关对。然而，视频本身所表达的信息比文本要广泛得多。

相反，文本通常捕获整个视频的子区域，并且在语义上与视频中的某些帧最为相似。因此，对于给定的文本，检索模型应该关注文本在语义上最相似的视频子区域，以便进行更相关的比较。然而，大多数现有作品在不直接考虑文本的情况下聚合了整个视频。常见的文本不可知聚合方案包括帧上的平均池化或自注意，但这些可能会编码给定文本中未描述的误导性视觉信息。

为了解决这个问题，本文提出了一个名为XPool的跨模态注意力模型，该模型在文本和视频帧之间进行推理。本文的核心机制是对文本进行scaled dit product attention，以关注其语义上最相似的帧。然后，根据文本在帧上的注意权重生成聚合视频表示。

Motivation

TikTok、YouTube和Netflix等视频内容平台的出现，使视频在世界各地得以大规模推广。检索与基于文本的搜索查询在语义上最相似的视频的能力使我们能够快速找到相关信息，并理解大量视频数据。

文本视频检索是解决这一问题的一种方法，其目标是让模型学习文本和视频之间的相似性函数。为了计算两种模态之间的相似性，一种常见的技术是首先将文本和视频嵌入到联合潜在空间中，然后应用距离度量，例如文本和视频嵌入之间的余弦相似性。

然而，这两种模态之间存在一个重要的差异，使得这种直接比较具有挑战性。视频本身比文本表达的信息范围要广得多，因此文本通常无法完全捕获视频的全部内容。相反，文本在语义上最类似于视频的子区域，表示为帧的子集。根据给定的文本，语义最相似的帧会有所不同，因此多个同等有效的文本可以匹配特定的视频。