论文浏览(41) STEP: Spatio-Temporal Progressive Learning for Video Action Detection

最新推荐文章于 2024-07-14 14:59:46 发布

清欢守护者

最新推荐文章于 2024-07-14 14:59:46 发布

阅读量851

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108518935

版权

98 篇文章 21 订阅

订阅专栏

Spatio-temporal action detection 任务的难度较大
- 一个action tube一般来说包括了空间上的变换，这会导致proposal的生成与微调更有难度。
- 需要更好的对temporal进行建模，从而得到行为分类的效果。
之前的解决方案
- 一般是将视频分为若干clip，对每个clip提取action tube，然后再Link
- 获取单个clip的action tube时都是基于同一个anchor
  - 可能对于空间变化较大的情况不合适。
  - 对于短的clip一般要执行offline的link操作。

为了获取action tube，本文提出的方法不是 clip-level，而是progressive learning
- 所谓 clip-level，就是先获取每个clip的action tube，再对不同clip的action tube进行link
- 所谓 progressive learning，就是先生成几个框，然后向两边扩展。
提出了STEP（Spatio-TEmporal Progressive action detector）
- 首先确定action tube的长度（即帧的数量，假设为K），定义最大的 progressive step 为 $S_{max}$ ，然后就讲视频分为 $2*S_{max} + 1$ 个clip。
- 首先初始化一些proposal，然后在递进更新 $S_{max}$ 步，每一步都有一下操作：
  - Extend：向周边clip扩展
    - 有两种方式，Extrapolation（认为在一定时间范围内，空间变化是线性的，然后预测下一个bbox）和Anticipation（训练网络直接预测）
  - Refine（如下图）：对上一部刚刚扩展的clip进行微调
  - Update：使用贪心算法进行更新
- STEP结构如下图
整体检测步骤如下