0. 前言
1. 要解决什么问题
- Spatio-temporal action detection 任务的难度较大
- 一个action tube一般来说包括了空间上的变换,这会导致proposal的生成与微调更有难度。
- 需要更好的对temporal进行建模,从而得到行为分类的效果。
- 之前的解决方案
- 一般是将视频分为若干clip,对每个clip提取action tube,然后再Link
- 获取单个clip的action tube时都是基于同一个anchor
- 可能对于空间变化较大的情况不合适。
- 对于短的clip一般要执行offline的link操作。
2. 用了什么方法
- 为了获取action tube,本文提出的方法不是 clip-level,而是progressive learning
- 所谓 clip-level,就是先获取每个clip的action tube,再对不同clip的action tube进行link
- 所谓 progressive learning,就是先生成几个框,然后向两边扩展。
- 提出了STEP(Spatio-TEmporal Progressive action detector)
- 首先确定action tube的长度(即帧的数量,假设为
K
),定义最大的 progressive step 为 S m a x S_{max} Smax,然后就讲视频分为 2 ∗ S m a x + 1 2*S_{max} + 1 2∗Smax+1个clip。 - 首先初始化一些proposal,然后在递进更新
S
m
a
x
S_{max}
Smax步,每一步都有一下操作:
- Extend:向周边clip扩展
- 有两种方式,Extrapolation(认为在一定时间范围内,空间变化是线性的,然后预测下一个bbox)和Anticipation(训练网络直接预测)
- Refine(如下图):对上一部刚刚扩展的clip进行微调
- Update:使用贪心算法进行更新
- Extend:向周边clip扩展
- STEP结构如下图
- 首先确定action tube的长度(即帧的数量,假设为
- 整体检测步骤如下
3. 效果如何
- 分别是UCF101和AVA的结果
4. 还存在什么问题&有什么可以借鉴
-
个人感觉主要优势还是在progressive方法上,但我好像用不上,所以没细看。