0. 前言
- 相关资料:
- arxiv
- github
- 论文解读
- 论文基本信息
- 领域:时空行为检测
- 作者单位:上海交大&上海大学
- 发表时间:ECCV 2020
1. 要解决什么问题
- 之前的 action detection 方法都是先在 frame-wise 或 clip wise 进行检测,得到 action proposals,在连接结果。
- 因为要对每一帧都要进行检测,所以从时间性能上看很受到限制。
- 每次输入都是一帧或几帧(clip),所以得到的信息都收到了限制,在进行行为分类或行为定位(localization)时也都会存在限制。
- 训练过程中,tubes一般都是不完整的(因为整个tube的所包含的帧太多,每个样本输入的帧数量有限)。
- 在遇到存在偏差的bbox时,基于IOU的link方法会导致误差累积,结果不准确。
2. 用了什么方法
- 提出了 Corarse-to-fine action detector(CFAD) 用来替代 detect-and-link 策略
- 思路是:较近时间间隔内bbox的变化是线性的,也就是说,不用每一帧都进行检测。
- 以前方法的思路以及CFAD思路对比如下图
- 以前的方法是先Detection再Link。
- CFAD是先粗略得到action tube,再进一步优化。
- CFAD 的总体结构如下图所示
- 第一步,通过3D卷积网络提取特征;
- 第二步,获取 class-agnostic temporal proposals;
- 第三步,根据temporal proposals结果在3D卷积特征中获取对应的特征,作为后续Refine模块与Coarse模块的输入。
- 第四步,Coarse 模块细节,初步获取action tube。
- 第五步,Refine 模块细节,细化action tube的细节。
- Coarse 和 Refine 模块的细节暂时不研究了。
3. 效果如何
- 通过 CFAD 得到的结果mAP差不多,但速度快不少。
4. 还存在什么问题&有什么可以借鉴
-
看起来就是offline版本的内容,不知道要如何引入online版中。