Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization


Paper: https://arxiv.org/pdf/2207.13450.pdf
Author: 北大王选计算所


摘要

这篇文章解决的是自然语言视频定位(NLVL)问题。几乎所有现有的工作都遵循“only look once”框架,该框架利用单一模型直接捕获video-query对之间复杂的跨模态和自模态关系,并检索出相关片段。可是,作者认为这些方法忽略了理想定位方法中所不可缺少的两个特点:1)帧区别性:正负的视频帧是不平衡,在定位过程中突出正样本帧并削弱负样本帧是有效的;2)精确边界:为了预测准确的片段边界,模型应该捕获连续帧之间更细粒度的差异,因为它们的变化通常是平滑的。为此,受人类如何感知和定位一个视频片段的启发,作者提出了一个类似人类的two-step框架,称为跳跃-定位-浏览(SLP)。SLP包含一个Skimming-and-Locating (SL) 模块和一个Bi-directional Perusing (BP) 模块,SL模块首先参考query的语义,从视频中选择最佳匹配的帧,同时过滤出不相关的帧。然后,BP模块基于这一帧构建一个初始的视频片段,并通过探索其相邻的帧进行动态更新视频片段范围,直到没有帧共享相同的活动语义。

在这里插入图片描述
贡献如下:

  1. 提出了一种新的跳跃-定位-浏览(SLP)框架,这是NLVL任务中是第一个同时考虑帧区别性和边界精确需求的类人框架。
  2. 与“只看一次”的定位策略不同,双阶段SL和BP模块突出了对积极帧的更多影响,并捕获了相邻帧之间更细粒度的差异。

Related work

Natural language video localization(NLVL):NLVL是一个新任务,在2017年才被提出来【4】。大部分的算法是 propose-and-rank 架构,就是首先生成候选segment,然后利用多模态匹配来检索相对于query最相关的候选segment。有一些算法采用滑动窗口来作为candidates,为了提升candidates的质量,还有一些算法按照多个预定义的时间尺度分割好视频,然后直接将细粒度的视频片段和语义信息整合在一起用来评分。Chen等人的捕捉了视频和查询之间不断演变的细粒度逐字交互,以增强对视频表示的理解,等等。尽管这些方法取得了不错的性能,但proposal matching /ranking 这些操作计算量大,严重限制了它们的性能,并且它们对预定义proposal的质量也很敏感。

最近许多工作提出了使用 boundary-regression 架构。具体来说,这类方法不提前选出候选segment,而是通过利用视频和查询之间的跨模态交互,直接预测每一帧的两个概率,即该帧是否是ground truth视频段开始或结束帧的概率。最近也有一些强化学习的方法应用于NLVL任务。

但是,以上这两种范式都是:在单个建模过程中同等的学习 frame-to-word 和 frame-to-frame 的关系,然后基于所有帧来检索出视频段,但这往往不能区分前背景帧,也不能捕捉某些连续帧之间的细粒度差异,以确定精确的线段边界。

网络结构

在这里插入图片描述

网络的具体结构见上图,对于多模态的输入(视频+文本),首先基于query对视频内容进行理解,经过多模态交互等操作最后挑出前K个排名的positive帧,这些操作称之为Skimming-and-Locating(SL)操作。然后对每一个正样本帧都进行Bi-directional Perusing (BP)操作,具体的是对它进行双向的计算相似度,在每个方向上都计算邻接帧的视觉特征与当前segment的视觉相似度和语义相似度(猜想的原因:由于信息在语义空间和视觉空间下的特征并不相同,所有都计算相似度考虑的更全面),用余弦相似度来计算。
在这里插入图片描述

为了在训练过程中在监督frame-query和frame-segment的匹配,作者使用了一种hinge-based triplet ranking loss【1】来鼓励匹配成功对的相似度得分大于未匹配成功对的相似度得分(值得借鉴)。

在这里插入图片描述
当邻接帧的相似度得分大于设定的阈值后,模型就会将这个邻接帧加入到视频segment中。以往的工作【2】大多是最大池化来更新segment,这篇文章认为由于目标活动主要发生在整个帧的局部区域,因此为了只保留与语义最相关的判别信息,文章引入了一种新的可学习的片段更新策略,并过滤掉每个新帧的不重要信息(其他区域提供冗余的信息)。具体而言,计算出了一个中间状态的segment语义,如下:
在这里插入图片描述
其中的r1和r2称为reset gates,用来遗忘(过滤)每个帧中的背景(无关)信息,构造式如下:
在这里插入图片描述
有了中间状态 (𝑯𝑡−1:𝑡)′后,作者有设计了另一个 gate z,用来更新当前segment 状态𝑯𝑡:t。具体如下。注意:以上所有的W, H为权重,b为偏置。
在这里插入图片描述
为了监督segment的更新以及每个构造segment的质量,作者训练了一个3层的linear网络来获得C𝑡−1:t的置信度分数。这里的训练目标是C^(gt)_(𝑡−1:t),通过计算 (𝑡 − 1, 𝑡)片段与ground truth (𝜏𝑠, 𝜏𝑒 )片段的IoU得到。下面的R1使用的是Smooth-L1 loss【3】。最后挑选出置信度最高的那个片段。
在这里插入图片描述
思考

  1. 帧区别性的需求:通过采用hinge-based triplet ranking loss鼓励匹配成功对的相似度得分大于未匹配成功对的相似度得分来实现
  2. 边界精确需求:通过对每次更新segment时计算置信度和进行监督来实现

参考文献

【1】Andrej Karpathy and Li Fei-Fei. 2015. Deep visual-semantic alignments for generating image descriptions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
【2】Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020. Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language. In Proceedings of the AAAI Conference on Artificial Intelligence.
【3】Ross Girshick. 2015. Fast r-cnn. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
【4】Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, and Bryan Russell. 2017. Localizing moments in video with natural language. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值