ICCV 2021
Zero-shot Natural Language Video Localization
摘要
任务介绍NLVL(natural language video localization):从视频内查询与自然语言描述相关的视频片段。
提出任务的原因
Understanding videos to localize moments with natural language often requires large expensive annotated video regions paired with language queries.
视频定位(关于时序片段),需要 “查询语句-视频” 对的注释,而这种标注成本很高,不利于任务的发展。
受启发的工作(作者)
Unsupervised image captioning setup.
验证测试的数据集
Charades-STA 和 ActivityNet-Captions
引言
初步构想
Figure1-d
初步的组件/工作内部的设想
- unpaired data–1)video collection(视频集);2)text corpora(自然语言的语料库)
- an off-the-shelf object detector
伪监督
方法\要点
To generate pseudo-supervision of candidate temporal regions in video and corresponding sentences to train an NLVL model.
生成伪监督的候选时序片段和相关联的句子从而可以训练NLVL任务的模型。
伪监督的好处
- the pseudo-supervision provides interpretable resources (i.e., generated regions and sentences) to train an NLVL model.
提供可解释的资源来训练NLVL模型。
一会要改
意思是说,无配对数据是没有任何监督信息可以使用的,比如强监督会有sentence-video segment;弱监督有 sentence-video等监督信息可以运用。但是无配对数据中的视频信息和文本信息二者相互独立,他们分别位于自己的盒子内,并没有可见的连接。但是,伪监督其实相当于为视频片段和文本生成了一些候选的监督信息,伪的意思是,不能保证全部正确,因为不是人工直接标注的,而是在这个任务中自己学习的。 - the pseudo-supervision can serve as initial annotation suggestions to human labelers to reduce the annotation cost or to accelerate the annotation process.
伪监督相当于对一堆无序的视频和文本描述建立了一些初步的联系,所以,很明显简化了人工标注的过程,可以大大减少人工标注成本以及人工标注时间。 - the pseudo-supervision can be readily applicable to the existing ‘fully supervised’ NLVL models .
可以很容易应用完全监督的模型。原因在于作者提出的伪监督设置,其生成的是sentence-video segment的强监督信息。
伪监督的挑战
- Finding meaningful temporal regions to be possibly queried.
找到可能与查询相关的有意义的时间区域。 - Obtaining corresponding query sentences for the temporal regions found.
获得已找到时序区域的相应查询语句。
作者设计思路
- 针对第一条挑战 — 获取有意义的候选时序片段。明确的一点是,一个完整的非人工剪辑的视频是由多个事件 e e e以及零散的 N N N帧图像组成,且每个事件 e e e都包含 N N N帧图像的一部分,但是时序长短非固定。所以,作者采用 “聚类” 思想,将每个 e e e看作一个整体,帧图像为其元素。如此,便可以得到 m m m个视频片段。(此段提及符号与论文内无关)
- 针对第二条挑战 — 目前已经得到了
m
m
m个视频片段,为了得到查询语句,利用现成的对象检测器来获得每一帧中的对象,依次可以获得一系列的名词标签;接着通过从语言语料库中利用 “名词-动词” 统计共现(这里大概相当于一个大数据统计,某个名词/事务/对象(猫、狗、杯子等)可能会和哪些动词一起出现,把这些动词罗列出来)。如此便可以得到一系列的 “名词-动词”的伪查询。(问题:比如下图中,会有 “人” 和 “瓶子” 两个名词,那么动词的获取是只考虑单一对象与动词的共现,还是会考虑 二者之间的一个共现呢?)
一个问题
The pseudo query is structure-less unlike the natural language queries from the supervised data and not all the proposed event regions might be meaningful.
- 伪查询不像监督任务里面的查询语句一样,伪查询无结构。
- 聚合出来的时间片段并非是所有的都是由意义的。
贡献
- We propose the first zero-shot NLVL task.
第一个提出了zero-shot NLVL任务。 - We propose an pseudo supervising framework (PSVL) to predict temporal event regions and corresponding query sentences from a video.
提出了PSVL模型为视频预测时间片段和与时间片段相对应的查询语句。 - We propose a simple NLVL model architecture.
提出了一个简单的NLVL模型。 - We establish baselines for the zero-shot NLVL task and compare it with stronger supervision.
为zero-shot NLVL任务构建了基线,并令该基线与强监督模型比较。