论文阅读:TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals


在这里插入图片描述

摘要

问题: Temporal Action Proposal(TAP)生成是一个重要的问题。
解决: 提出了一种新颖的 Temporal Unit Regression
Network(TURN)模型。

  1. TURN通过时间坐标回归联合预测行为建议并细化时间边界;
  2. 通过 unit feature reuse 实现快速计算:将未裁剪的长视频分解为视频单元,这些视频单元被重用作为时间提议的基本构建块。

方法

在这里插入图片描述

视频单元处理

目的: 避免对同一窗口或重复重叠窗口进行视觉特征提取。
解决: 使用视频单元(video units)作为基础处理单元。

  1. 一个视频 V V V包含 T T T帧: V = V= V= { t i t_i ti} 1 T ^T_1 1T,将其分成 T / n u T/n_u T/nu个连续的视频单元, n u n_u nu是一个单元的帧数。
  2. 一个单元表示为 u = u= u= { t i t_i ti} s f s f + n u ^{s_f+n_u}_{s_f} sfsf+nu,其中, s f s_f sf是起始帧。
  3. 每个单元通过视觉编码器 E v E_v Ev得到单元级别表示$f_u=E_v(u)。

剪辑金字塔建模

  1. 一个剪辑 c c c,内部单元: { u j u_j uj} s u e u ^{e_u}_{s_u} sueu,其中, e u = s u + n c e_u=s_u+n_c eu=su+nc s u s_u su是起始单元的索引。
    上下文单元:{ u j u_j uj} s u − n c t x s u ^{s_u}_{s_u-n_{ctx}} sunctxsu和{ u j u_j uj} e u e u + n c t x ^{e_u+n_{ctx}}_{e_u} eueu+nctx n c t x n_{ctx} nctx
  2. 内部特征和上下文特征是通过函数 P P P分开池化的。剪辑的最终特征 f c f_c fc是上下文特征和内部特征的串联:在这里插入图片描述 P P P是mean pooling。

通过在每个单元位置(即ancjor单元)构建窗口金字塔来扫描未裁剪的视频。一个剪辑金字塔 p p p由不同时间分辨率的时间窗组成, p = p= p= {KaTeX parse error: Expected group after '_' at position 5: c^{n_̲}}, n c ∈ n_c∈ nc{ n c , 1 , n c , 2 , . . . n_{c,1},n_{c,2},... nc,1,nc,2,...}。请注意,尽管多分辨率剪辑会有时间重叠,但剪辑级别的特征是由单元级别的特征计算得到的,而单元级别的特征只计算一次。

单元级别时间坐标回归

想法: 人类可以在不观察整个实例的情况下推断出行为实例(例如射击篮球,挥杆高尔夫)的大概开始和结束时间,类似地,神经网络也可以推断出时间边界。
解决: 设计了一个单元回归模型。

  1. 输入: 剪辑级表示 f c f_c fc
  2. 输出:并具有两个同级输出层。 第一个输出置信度分数,该置信度分数指示输入的片段是否为行为实例。 第二个输出时间坐标回归偏移量:在这里插入图片描述

两个显着方面。 首先,采用单位级的坐标回归。 由于提取了基本单位级别的特征以对 n u n_u nu个帧进行编码,因此该特征可能不足以区分出帧级别的坐标。 与帧级回归相比,单位级坐标回归更容易学习和更有效。 其次,与空间包围盒回归相反,我们不使用坐标参数化。 我们直接回归起始单位坐标和结束单位坐标的偏移量。 原因是由于摄像机的投影,可以在图像中对对象进行重新缩放,因此应该首先将边界框坐标标准化为某个标准比例。 但是,行为的时间跨度无法轻松地在视频中调整。

损失

  1. 为每个剪辑(在每个anchor单元生成)分配了一个二进制类标签(是否为行为)。 在以下情况下,将为片段分配一个positive标签:
    (1)具有groundtruth片段重叠(tIoU)最高的窗口片段;
    (2)窗口片段与任意groundtruth的tIoU大于0.5。
    请注意,单个groudtruth片段可将positive标签分配给多个窗口片段。 负标签分配给所有与groudtruth的tIoU等于0.0(即无重叠)的non-positive剪辑。
  2. 损失:
    在这里插入图片描述在这里插入图片描述
    l i ∗ l^*_i li是标签, N p o s N_{pos} Npos是positive标签数,只是用positive samples计算。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值