Zero-shot Natural Language Video Localization

最新推荐文章于 2024-05-29 17:02:10 发布

HzzWJjY

最新推荐文章于 2024-05-29 17:02:10 发布

阅读量412

点赞数 2

分类专栏：论文阅读文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/little_child_z/article/details/124118102

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

ICCV 2021

Zero-shot Natural Language Video Localization

作者信息

摘要

任务介绍NLVL（natural language video localization）：从视频内查询与自然语言描述相关的视频片段。

提出任务的原因

Understanding videos to localize moments with natural language often requires large expensive annotated video regions paired with language queries.
视频定位（关于时序片段），需要 “查询语句-视频” 对的注释，而这种标注成本很高，不利于任务的发展。

受启发的工作（作者）

Unsupervised image captioning setup.

验证测试的数据集

Charades-STA 和 ActivityNet-Captions

引言

在这里插入图片描述

初步构想

Figure1-d 初步的组件/工作内部的设想

unpaired data–1)video collection（视频集）；2）text corpora（自然语言的语料库）
an off-the-shelf object detector

伪监督

方法\要点 To generate pseudo-supervision of candidate temporal regions in video and corresponding sentences to train an NLVL model.
生成伪监督的候选时序片段和相关联的句子从而可以训练NLVL任务的模型。

伪监督的好处

the pseudo-supervision provides interpretable resources (i.e., generated regions and sentences) to train an NLVL model.
提供可解释的资源来训练NLVL模型。
一会要改
意思是说，无配对数据是没有任何监督信息可以使用的，比如强监督会有sentence-video segment；弱监督有 sentence-video等监督信息可以运用。但是无配对数据中的视频信息和文本信息二者相互独立，他们分别位于自己的盒子内，并没有可见的连接。但是，伪监督其实相当于为视频片段和文本生成了一些候选的监督信息，伪的意思是，不能保证全部正确，因为不是人工直接标注的，而是在这个任务中自己学习的。
the pseudo-supervision can serve as initial annotation suggestions to human labelers to reduce the annotation cost or to accelerate the annotation process.
伪监督相当于对一堆无序的视频和文本描述建立了一些初步的联系，所以，很明显简化了人工标注的过程，可以大大减少人工标注成本以及人工标注时间。
the pseudo-supervision can be readily applicable to the existing ‘fully supervised’ NLVL models .
可以很容易应用完全监督的模型。原因在于作者提出的伪监督设置，其生成的是sentence-video segment的强监督信息。

伪监督的挑战

Finding meaningful temporal regions to be possibly queried.
找到可能与查询相关的有意义的时间区域。
Obtaining corresponding query sentences for the temporal regions found.
获得已找到时序区域的相应查询语句。

作者设计思路

针对第一条挑战 — 获取有意义的候选时序片段。明确的一点是，一个完整的非人工剪辑的视频是由多个事件 $e$ 以及零散的 $N$ 帧图像组成，且每个事件 $e$ 都包含 $N$ 帧图像的一部分，但是时序长短非固定。所以，作者采用 “聚类” 思想，将每个 $e$ 看作一个整体，帧图像为其元素。如此，便可以得到 $m$ 个视频片段。(此段提及符号与论文内无关)
针对第二条挑战 — 目前已经得到了 $m$ 个视频片段，为了得到查询语句，利用现成的对象检测器来获得每一帧中的对象，依次可以获得一系列的名词标签；接着通过从语言语料库中利用 “名词-动词” 统计共现（这里大概相当于一个大数据统计，某个名词/事务/对象（猫、狗、杯子等）可能会和哪些动词一起出现，把这些动词罗列出来）。如此便可以得到一系列的 “名词-动词”的伪查询。（问题：比如下图中，会有 “人” 和 “瓶子” 两个名词，那么动词的获取是只考虑单一对象与动词的共现，还是会考虑二者之间的一个共现呢？）

一个问题
The pseudo query is structure-less unlike the natural language queries from the supervised data and not all the proposed event regions might be meaningful.

伪查询不像监督任务里面的查询语句一样，伪查询无结构。
聚合出来的时间片段并非是所有的都是由意义的。

贡献

We propose the first zero-shot NLVL task.
第一个提出了zero-shot NLVL任务。
We propose an pseudo supervising framework (PSVL) to predict temporal event regions and corresponding query sentences from a video.
提出了PSVL模型为视频预测时间片段和与时间片段相对应的查询语句。
We propose a simple NLVL model architecture.
提出了一个简单的NLVL模型。
We establish baselines for the zero-shot NLVL task and compare it with stronger supervision.
为zero-shot NLVL任务构建了基线，并令该基线与强监督模型比较。