ACM MM 2022 Oral | PRVR:全新的文本到视频跨模态检索子任务

61e034363b9e54fa4e7c5b6277f6a618.gif

©作者 | 陈先客

研究方向 | 跨模态检索

概览:本文介绍一篇 ACM MM 2022 Oral 的工作。基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,该工作提出了一个全新的文本到视频跨模态检索子任务,即部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。

PRVR 任务旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。若一个未经剪辑的长视频中存在某一片段与给出的查询文本相关,则认为该长视频与给出的查询文本呈部分相关的关系。而在传统的 T2VR 任务中,视频都是预剪辑后的短视频,且通常希望检索得到整个视频与文本查询完全相关。

相比之下,PRVR 任务更加符合实际应用场景,且更具有挑战性。作者将 PRVR 任务视为一个多示例学习的问题,将视频同时视为由多个片段以及视频帧所组成的包。若文本与长视频的某帧或者某个片段相关,则视为文本与该长视频相关。

基于此,作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型除了在 PRVR 任务上表现较好之外,也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。

d8aa2ebdd05461302e3d1c581c522a21.png

论文标题:

Partially Relevant Video Retrieval

收录会议:

ACM MM 2022 (Oral Paper)

论文主页:

http://danieljf24.github.io/prvr/

代码链接:

https://github.com/HuiGuanLab/ms-sl

75eaedd85bc1f3c3480eab162994f680.png

背景与挑战

当前的文本到视频检索(T2VR)方法通常是在面向视频描述生成任务的数据集(如 MSVD、MSR-VTT 和 VATEX)上训练和测试的。这些数据集存在共同的特性,即其包含的视频通常是以较短的持续时间进行预剪辑得到,同时提供的对应文本能充分描述视频内容的要点。因此,在此类数据集中所给出的文本-视频对呈完全相关的关系。然而在现实的视频检索场景中,由于查询文本是未知的,预先剪辑好的视频可能不包含足够的内容来完全满足查询文本。

这表明现阶段在学术研究的 T2VR 与实际应用存在一定的鸿沟。如图 1 所示,上半部分的图取自传统 T2VR 数据集 MSR-VTT,由于视频长度较短,场景单一,所以对应的文本“两个男人在开车的同时进行交谈”能够很好地概括视频的所有内容。而在下半部分取自 TV show Retrieval 数据集的长视频场景多变,持续时间较长。

文本“豪斯使用记号笔在玻璃表面写字”仅能表述视频中的某一片段。在现实世界中的检索场景大多符合后者。为了弥补这一鸿沟,作者提出了一种新的 T2VR 子任务——部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 任务旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。若一个未经剪辑的长视频中存在某一片段与给出的查询文本相关,则认为该长视频与给出的查询文本呈部分相关的关系。

1041b35f4e1688fa60f54c593be4448f.png

▲ 图1 传统T2VR任务中文本-视频对的相关关系与现实世界的差别

虽然 PRVR 任务和传统的 T2VR 任务的目标均为从视频库中检索出查询文本的对应视频,但在 PRVR 任务中视频通常比较长,同时文本查询对应的片段在原视频中的时长占比分布较广。如图 3 所示,在 TVR 和 Charades-STA 数据集中,时长占比大多分布在 50% 以下;Activitynet 数据集的占比则在 1%-100% 之间均有分布。

这就代表若简单地将视频表示为单一向量,会大量丢失与查询文本相关的关键信息。同时查询文本在对应长视频的相关时刻起始位置和持续时间都是未知的,需要模型具备在没有时刻标签指导下建模出文本和对应长视频间部分相关关系的能力,所以 PRVR 任务相较于传统的 T2VR 任务更具挑战性。

74bf69c849d0b138dfc3ba71bae5ff7d.png

(a)TVR

1ff9bb7c934a9a702ba40e30ee1bed38.png

(b)Activitynet

3fda5a74d73feb7225aa963a270bc00a.png

(c)Charades-STA

▲ 图3 不同数据集中片段时长占比分布

2149a31c12d645a4abe64c4e08386e21.png

方法

作者将 PRVR 定义为多示例学习(Multiple Instance Learning, MIL)问题。多示例学习是弱标注数据学习的经典框架,并被广泛用于分类任务。在多示例学习中,一个样本被视为由大量示例所组成的包,若包中的某一个或多个示例为正样本时,则该包为正样本;反之则该包为负样本。

作者将长视频整体视为一个包,视频中的各帧或由不同大小帧组成的片段则被视为不同示例。若文本与长视频的某帧或者某个片段相关,则视为文本与该长视频相关。此外,由于不同查询文本与长视频的相关时刻持续时长区别较大,所以作者在多个时间尺度进行视频表示,进一步提出了多尺度相似性学习来度量查询文本和长视频间的部分相关性。

c6b2811059e796ea94dfc1f6caede03f.png

▲ 图4 模型框架图

2.1 文本特征表示

由于当前模型的重点并不在于文本编码,所以作者使用了一个较为简单且有效的文本编码框架,它也可以被任意当下热门的文本编码框架替代。具体地,给定一句由 个单词所组成的查询文本,使用预训练的 RoBERTa 模型来提取每个单词的特征向量 作为文本的初始特征。之后通过全连接层进行特征降维后,使用一层的标准 Transformer 模块对其进行进一步编码。最终通过注意力模块得到句子级别的特征表示 ,既:

68b403e0316df232719e59532e9d0bd0.png

0c31426b5258a33f73930ce1a0dadb76.png

2.2 视频特征表示

对于输入的长视频,首先使用预训练的 CNN 对其进行特征预提取, 作为视频的初始特征向量。进一步地,作者分别从片段尺度和帧尺度分别对视频初始特征向量进行编码。

2.2.1 视频的片段尺度编码

在对视频初始特征向量进行片段尺度编码前,作者将其降采样为长度为 的特征 ,以减少初始特征序列的长度,并有助于降低编码模块的计算复杂度。之后,将降采样后的特征 U 使用全连接层进行特征降维后,输入到一层的标准 Transformer 中捕捉其上下文信息:

283d8fa60f8243fddebaecef8cf910a6.png

由于上文提到 PRVR 任务中查询文本在对应长视频的起止时刻是未知的,作者采用滑动窗口的方法生成不同长度的候选视频片段。具体地,作者使用不同尺寸的滑动窗口以步长为 1 的幅度遍历 ,在遍历过程中通过对落在滑动窗口内的特征进行平均池化来获得对应大小的视频段特征序列 。其形象化过程如上图中片段构造模块所示。通过同时使用大小从 的滑动窗口,得到视频段特征序列集合 ,将其展开后得到最终的视频片段尺度特征序列 ,。

2.2.2 视频的帧尺度编码

由于视频初始特征向量是独立提取的,因此它们缺乏上下文的时序信息。作者使用 Transformer 模块捕捉丢失的时序依赖关系。首先简单地对初始特征 V 使用全连接层进行特征降维,并输入到一层标准 Transformer,来得到视频的帧尺度特征表示:

19bf7973459e9010f1d1ab3a3ea9f651.png

2.4 多尺度相似性学习

由于在 PRVR 中视频比较长,直接在计算视频文本相似性难度较大。作者认为如果模型简单地知道与查询文本相关的大致内容,它将有助于模型在更细粒度的范围内准确地找到更相关的内容。因此作者提出了多尺度相似性学习,以从粗到细的方式计算文本与视频间的相似度。它首先检测视频中最可能与查询文本相关的关键片段,然后在关键片段的指导下衡量每帧的重要性。通过联合考虑查询文本与关键片段和各帧的相似度来计算最终的文本-视频相似度。

2.4.1 片段尺度相似度

在部分相关的检索任务中,若文本与视频中的某一片段相关,则认为文本与该视频相关。因此作者首先计算视频段特征序列 C 中每个片段与文本特征表示 q 之间的相似度,并将文本与片段最大的相似度作为文本与整个视频的相似度。对于相似度取值,作者认为取平均值会使得相关片段信息被大部分的低相似度片段模糊,所以取最大值作为视频片段尺度相似度 。此外,作者将相似度最高的视频段特征 作为关键视频段特征。

10c304b6410bd33858f8a8be7d4ac939.png

2.4.2 帧尺度相似度

检测到长视频中与文本最相关的关键片段后,作者以关键片段为进一步指导,在细粒度的时间尺度上衡量长视频每帧的重要性。具体地,作者借鉴了 Multi-head Attention 的编码方式,将关键片段特征 作为 query,视频的帧尺度特征序列 作为 key 和 value。分别计算出 中各特征的权重并对其进行聚合,并计算 r 与文本特征表示 的余弦相似度作为视频帧尺度相似度 :

f57baec91f716df6fc981c7eb96a000d.png

2.5 训练和测试

在模型训练阶段,作者同时使用了三元组损失和对比学习损失进行模型优化。在测试阶段,作者同时使用片段尺度相似度和帧尺度相似度以不同权重共同度量文本和视频间的最终相似度:

2c8cb5cad6017669afe4171179b0f96d.png

d6cb72e1182425d5b728434914937ab5.png

实验结果

3.1 整体性能对比实验

由于在上文提到,T2VR 任务的传统数据集并不适用与 PRVR 任务,所以作者使用了被用于单视频定位任务(Single Video Moment Retrieval, SVMR)和视频库定位任务(Video Corpus Moment Retrieval, VCMR)的数据集,分别是 TV show Retrieval、Activitynet Captions 以及 Charades-STA。在以上三个数据集中,文本仅与视频中的某一片段相关,且视频的相对持续时间更长,符合 PRVR 任务的检索要求。此外,作者采用 R@1、R@5、R@10、R@100 以及 Recall Sum 等性能指标来衡量模型。同时,由于当前并没有模型是面向 PRVR 任务的,作者选取了在传统 T2VR 任务上表现较好的模型作为 baseline 并在以上三个数据集上进行重新训练,以此进行性能对比。

在所有数据集上,论文提出的模型性能远超各 baseline。这表明论文提出的模型相较于传统视频检索模型能够更好地解决 PRVR 任务。

02b033102694aef165f73f8d09e8a013.png

▲ 表1 TV show Retrieval数据集上与baseline模型的性能对比

fb92dd927e43a069e0e81b5324ad916b.png

▲ 表2 Activitynet Captions数据集上与baseline模型的性能对比

3f8eea962cab6c0c66446dc11edaf635.png

▲ 表3 Charades-STA数据集上与baseline模型的性能对比

3.2 分组性能对比实验

由于在上述的性能对比实验中仅反映了模型检索数据集中所有文本-视频对的整体性能,为了在更加细粒度的方面探索各模型对不同相关性的文本-视频对的检索性能,作者定义了片段时长/视频时长比(M/V)这一概念,它以通过查询文本所对应的正确片段持续时间除以整个视频的持续时间来衡量。M/V 越小,表示对应视频与查询文本相关的内容越少,反之则越多。此外, M/V 越小,查询文本与其对应视频的相关性越低,而 M/V 越大,相关性越高。根据 M/V 的大小,作者将 TVR 数据集上的 10895 个测试查询文本分为六组,并报告了在不同分组上的性能。

作者所提出的模型在所有分组中始终表现最好。从左到右观察下图,12 个比较模型的平均性能随着 M/V 的增加而增加。最低 M/V 组的表现最差,而最高 M/V 组的表现最好。这表明,传统的视频检索模型能够更好地应对与相应视频具有更大相关性的查询文本。相比之下,作者所提出的模型在所有 M/V 组中取得的成绩更为平衡。这一结果表明,作者提出的模型对视频中的无关内容不太敏感。

1a080957169e9ba645e656e54a0720cc.png

3.3 消融实验

对于提出的多尺度多示例模型的不同组成部分,作者进行了消融分析。模型单独使用帧尺度或片段尺度特征表示分支时,性能都不如两分支相结合。同时基于关键片段的注意力机制也能为模型带来较大的性能提升。由于在模型训练阶段同时使用了三元组损失和对比学习损失,作者也对两损失结合使用的有效性进行了论证。

f831ba06a9b05f3fbf36202370279cb8.png

3.4 对VCMR模型的性能提升

VCMR 任务旨在给定查询文本后,在视频库中检索出对应视频,并且确定查询文本在对应视频中的起止时刻。当前用于 VCMR 任务的主流模型通常拥有两个阶段的工作流程。第一阶段为从视频库中检索出 k 个候选视频,第二阶段为从候选视频中检索出准确的起止时刻。作者选取了当前性能较高的模型,XML 和ReLoCLNet,将以上两个模型在 TVR 数据集上的第一阶段检索结果替换为作者所提出模型的检索结果,从下图可以看出在进行替换后能给上述两模型带来 VCMR 任务上的性能提升。

cbf434fa7f04789579524e5232528c4f.png

3.5 可视化展示

下图作者给出了一些模型检索过程中的可视化实例,分别给出了查询文本在其对应视频中由模型检测出的关键片段范围与关键片段和所有视频帧之间的相似度曲线。在前两个查询实例中,模型检测出的关键片段与正确相关片段完全重合。在后两个查询实例中,检测出的关键片段较为不准确,但是正确片段所包含的帧均具有较高的注意力权重。这表明帧尺度相似度学习分支可以帮助片段尺度相似度学习分支在一定程度上补齐缺失信息,进一步反映了模型设计双分支相似度学习模块的合理性。

4402f08041a2f85676c356c28fe995f5.png

343aa950a53b2af25651f1875c3b0811.png

结论

在本文中,针对传统 T2VR 任务在现实中的局限性,作者提出了一个全新的文本到视频跨模态检索子任务 PRVR。在 PRVR 中,查询文本与对应视频均呈部分相关关系而非传统 T2VR 任务中的完全相关关系。对于 PRVR,作者将其定义为多示例学习问题,并提出多尺度多示例网络,它以从粗到细的方式计算查询文本和长视频在片段尺度和帧尺度上的相似性。在三个数据集上的实验验证了作者所提出的模型对于 PRVR 任务的有效性,并表明它也可以用于提升 VCMR 任务模型的性能。

更多阅读

67f7c782cdecffad23f6185380a2df33.png

58e4e1e29393b6162dd4ec734cc782ea.png

4e4b209eb3895ce22c349f282bdf8ff7.png

60ab8c8df806668ed68fb71354fe94cc.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

2a67134133189d11cb5d68fbe6967604.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

cc180ec616444090a93f93e8b282eaaf.jpeg

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值