Boundary-sensitive Pre-training for Temporal Localization in Videos

最新推荐文章于 2023-02-10 11:23:28 发布

FengF2017

最新推荐文章于 2023-02-10 11:23:28 发布

阅读量375

点赞数

分类专栏：计算机视觉文章标签：计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/fengf2017/article/details/113563968

版权

计算机视觉专栏收录该内容

31 篇文章 3 订阅

订阅专栏

Boundary-sensitive Pre-training for Temporal Localization in Videos

论文标题:

Boundary-sensitive Pre-training for Temporal Localization in Videos

论文链接:

https://arxiv.org/abs/2011.10830

引言

视频时间动作定位（Temporal Action Localization）任务的目标是从原始视频中提取包含某些特定动作的视频段的起止时间和动作类别。与针对图像的目标检测任务类似，目前完成此任务的主流方法可以分为两阶段方法（提名生成+分类）和单阶段方法。然而，绝大多数现有模型都在视频动作分类（Action classification）数据集上进行预训练，这是因为对于未切边的视频，标注时间边界的人力成本很高。本篇论文聚焦于模型预训练问题，尝试用已有的视频动作分类数据集合成时间边界。

主要贡献

本文研究了时间动作定位模型预训练的问题，此问题之前被关注不多。并提出了一种合成时序边界信息的方法。
实验显示，本文的在时间动作定位任务中对G-TAD模型有效果上的提升，合成的预训练数据集对其它任务如 Video Grounding 也有帮助。

方法

1 视频合成

作者使用已有视频动作分类数据集（如Kinetics），通过四种方式合成新的数据集，它们分别是：①不同类别边界；②相同类别边界；③不同速度边界；④相同速度边界。

不同类别边界

对于两个具有不同类别的视频 $\mathbf{V}_{1}$ 和 $\mathbf{V}_{2}$ ，以相同方式对其进行采样，得到 $F_{1}=\left\{f_{1, i}\right\}_{i=1}^{\tau+\epsilon} \subset \mathbf{V}_{1}$ 和 $F_{2}=\left\{f_{2, i}\right\}_{i=1}^{\tau+\epsilon} \subset \mathbf{V}_{2}$ ，其中 $f_{1, i}$ ( $f_{2, i}$ )代表 $\mathbf{V}_{1}$ ( $\mathbf{V}_{2}$ )中的第 $i$ 个帧，每个视频中共有 $\tau+\epsilon$ 帧被提取。新视频 $S_{d c}=\left\{f_{i}^{d c}\right\}_{i=1}^{2 \tau}$ 以如下方式合成：

${f_{i}^{d c}=\left\{\begin{array}{ll} f_{1, i} & i \in[1, \tau-\epsilon] \\ \omega_{1}(i) f_{1, i}+\omega_{2}(i) f_{2, i-\tau+\epsilon} & i \in(\tau-\epsilon, \tau+\epsilon] \\ f_{2, i-\tau+\epsilon} & i \in(\tau+\epsilon, 2 \tau] \end{array}\right.}$

式中， $\epsilon$ 控制动作转换的周期， $\omega(i)$ 为一随 $i$ 变化的比例因子，在 $2\epsilon$ 帧内视频显示出一种平滑的过渡效果。
相同类别边界

对于两个相同类别视频，作者提出以模拟未切边视频中同一类动作连续出现的情况为目标的合成策略。在未切边视频中，同一动作类别的多个不同角度拍摄等情况是很常见的，在这种时候通常是镜头直接进行切换，因此作者提出这类情况中的新视频合成方式：

$f_{i}^{s c}=\left\{\begin{array}{ll} f_{1, i} & i \in[1, \tau] \\ f_{2, i-\tau} & i \in(\tau, 2 \tau] \end{array}\right.$

这是一种直接的合成方式，没有过渡时间。
不同速度边界

作者观察到对于一些未切边的视频，当动作开始时，视频内容的速度与动作未开始时有明显差别（如跳舞的准备时刻人物移动较慢，而跳舞时人物移动很快）。因此，作者认为视频中动作的速度可能隐含了边界信息，提出不同速度边界的合成方式：
$f_{i}^{d s}=\left\{\begin{array}{ll} f_{i} & i \leq t\quad(\text {原始速率}) \\ f_{t+\gamma(i-t)} & i>t\quad(\text {新速率}) \end{array}\right.$

其中， $\gamma$ 参数控制与原始视频相比的速率。

相同速度边界

此节仅为概念完整性，实际即为从原始数据集中直接取得的视频。

最终，合成数据集为上述四种方式生成的视频的集合 $S=\left\{S_{d c}, S_{s c}, S_{d s}, S_{s s}\right\}$ 。视频合成的方法可以通过下图来帮助理解。图中共九行，每三行是一种视频合成的方式（从上至下分别为不同类别边界、相同类别边界、不同速度边界），在每种方式中分别展示了ActivityNet数据集片段、Kinetics数据集片段、合成的数据集片段。

视频合成方式

2 预训练

作者提出两种可行的方式使用合成数据集进行预训练，一种使用分类损失，另一种使用回归损失。使用分类损失的模型使用合成数据的四种类别标签进行训练，输出合成视频属于每种类别的概率，使用交叉熵损失函数。使用回归损失的模型将时间ground truth转换成一维高斯热度图来保证稳定训练，使用L1 Loss。

3 与基于动作分类的预训练模型结合

为了将文中提出的预训练模型与现有的预训练模型相结合，作者提出了三种结合的方式，分别是two stream, two head 和 feature distillation，可参考下图理解。

与原有预训练模型结合的方式

Two stream

这种设计是在结构上有两条并行的支流，为简洁，作者在两个支流中使用了相同的backbone。结合两支流信息的方式是将特征合并（concat）起来。
Two head

使用两个不同的分类"head"，而其它层是共用的。作者假设两种特征表示会在训练过程中融合。
Feature distillation

此方法使用特征蒸馏，将文中提出的预训练模型与现有预训练模型作为两个teacher，通过最小化特征匹配loss来训练一个student网络。

4 实验

对于此部分的介绍主要聚焦于时间动作定位任务上，对于 video grounding 以及 step localization 任务相关的实验，请有兴趣的读者参考原文。

实验设定

不含光流的RGB输入，每8帧作为一个片段，使用TSM模型提取特征。
实验结果

在ActivityNet数据集上的实验结果
如图所示，使用了本文预训练模型（BSP）的G-TAD时间动作定位模型在时间交并比tIoU=0.5时mAP提升了0.93%，各tIoU阈值的平均mAP也有所提升。

总结

作者通过对未切边视频前景背景的观察，根据类别和动作速度的不同提出了三种合成新视频的方式，使用已经存在的动作分类数据集去合成一个新的带有起止时间的数据集，此方法不需要额外的人工标注。

然而实验部分显示出在tIoU=0.95的高交并比情况下加入了本模型的性能反而有所下降，笔者认为这可能是因为人工合成的训练集还是存在一些与自然视频特性不同的部分导致的。另外，针对预训练模型的方法需要大量计算资源，在视频相关任务中更为严重。

参考文献

[1] Xu M, Perez-Rua J M, Escorcia V, et al. Boundary-sensitive Pre-training for Temporal Localization in Videos[J]. arXiv preprint arXiv:2011.10830, 2020.

FengF2017

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Boundary-sensitive Pre-training for Temporal Localization in Videos

Boundary-sensitive Pre-training for Temporal Localization in Videos论文标题:Boundary-sensitive Pre-training for Temporal Localization in Videos论文链接:https://arxiv.org/abs/2011.10830引言视频时间动作定位（Temporal Action Localization）任务的目标是从原始视频中提取包含某些特定动作的视频段的起止时间和动作
复制链接

扫一扫