论文阅读：TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

最新推荐文章于 2022-11-05 19:15:24 发布

仙草冻奶茶

最新推荐文章于 2022-11-05 19:15:24 发布

阅读量534

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/qq_40760171/article/details/106299116

版权

论文专栏收录该内容

18 篇文章 0 订阅

订阅专栏

TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

摘要
方法

摘要

问题： Temporal Action Proposal（TAP）生成是一个重要的问题。
解决： 提出了一种新颖的 Temporal Unit Regression
Network（TURN）模型。

TURN通过时间坐标回归联合预测行为建议并细化时间边界；
通过 unit feature reuse 实现快速计算：将未裁剪的长视频分解为视频单元，这些视频单元被重用作为时间提议的基本构建块。

方法

在这里插入图片描述

视频单元处理

目的： 避免对同一窗口或重复重叠窗口进行视觉特征提取。
解决： 使用视频单元(video units）作为基础处理单元。

一个视频 $V$ 包含 $T$ 帧: $V =$ { $t_i$ } $^T_1$ ，将其分成 $T/n_u$ 个连续的视频单元， $n_u$ 是一个单元的帧数。
一个单元表示为 $u =$ { $t_i$ } $^{s_f+n_u}_{s_f}$ ，其中， $s_f$ 是起始帧。
每个单元通过视觉编码器 $E_v$ 得到单元级别表示$f_u=E_v(u)。

剪辑金字塔建模

一个剪辑 $c$ ，内部单元： { $u_j$ } $^{e_u}_{s_u}$ ，其中， $e_u=s_u+n_c$ ， $s_u$ 是起始单元的索引。
上下文单元：{ $u_j$ } $^{s_u}_{s_u-n_{ctx}}$ 和{ $u_j$ } $^{e_u+n_{ctx}}_{e_u}$ ， $n_{ctx}$
内部特征和上下文特征是通过函数 $P$ 分开池化的。剪辑的最终特征 $f_c$ 是上下文特征和内部特征的串联: $P$ 是mean pooling。

通过在每个单元位置(即ancjor单元)构建窗口金字塔来扫描未裁剪的视频。一个剪辑金字塔 $p$ 由不同时间分辨率的时间窗组成， $p =$ { $KaTeX parse error: Expected group after '_' at position 5: c^{n_̲}$ }, $n_c∈$ { $n_{c,1},n_{c,2},...$ }。请注意，尽管多分辨率剪辑会有时间重叠，但剪辑级别的特征是由单元级别的特征计算得到的，而单元级别的特征只计算一次。

单元级别时间坐标回归

想法： 人类可以在不观察整个实例的情况下推断出行为实例（例如射击篮球，挥杆高尔夫）的大概开始和结束时间，类似地，神经网络也可以推断出时间边界。
解决： 设计了一个单元回归模型。

输入：剪辑级表示 $f_c$
输出：并具有两个同级输出层。第一个输出置信度分数，该置信度分数指示输入的片段是否为行为实例。第二个输出时间坐标回归偏移量：

两个显着方面。 首先，采用单位级的坐标回归。由于提取了基本单位级别的特征以对 $n_u$ 个帧进行编码，因此该特征可能不足以区分出帧级别的坐标。与帧级回归相比，单位级坐标回归更容易学习和更有效。其次，与空间包围盒回归相反，我们不使用坐标参数化。我们直接回归起始单位坐标和结束单位坐标的偏移量。原因是由于摄像机的投影，可以在图像中对对象进行重新缩放，因此应该首先将边界框坐标标准化为某个标准比例。但是，行为的时间跨度无法轻松地在视频中调整。

损失

为每个剪辑（在每个anchor单元生成）分配了一个二进制类标签（是否为行为）。在以下情况下，将为片段分配一个positive标签：
（1）具有groundtruth片段重叠（tIoU）最高的窗口片段；
（2）窗口片段与任意groundtruth的tIoU大于0.5。
请注意，单个groudtruth片段可将positive标签分配给多个窗口片段。负标签分配给所有与groudtruth的tIoU等于0.0（即无重叠）的non-positive剪辑。
损失：

$l^*_i$ 是标签， $N_{pos}$ 是positive标签数，只是用positive samples计算。

仙草冻奶茶

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals摘要摘要
复制链接

扫一扫