论文浏览(47) CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization

最新推荐文章于 2022-10-24 00:15:00 发布

清欢守护者

最新推荐文章于 2022-10-24 00:15:00 发布

阅读量693

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108860791

版权

98 篇文章 21 订阅

订阅专栏

之前的 action detection 方法都是先在 frame-wise 或 clip wise 进行检测，得到 action proposals，在连接结果。
- 因为要对每一帧都要进行检测，所以从时间性能上看很受到限制。
- 每次输入都是一帧或几帧（clip），所以得到的信息都收到了限制，在进行行为分类或行为定位（localization）时也都会存在限制。
- 训练过程中，tubes一般都是不完整的（因为整个tube的所包含的帧太多，每个样本输入的帧数量有限）。
- 在遇到存在偏差的bbox时，基于IOU的link方法会导致误差累积，结果不准确。

提出了 Corarse-to-fine action detector(CFAD) 用来替代 detect-and-link 策略
- 思路是：较近时间间隔内bbox的变化是线性的，也就是说，不用每一帧都进行检测。
- 以前方法的思路以及CFAD思路对比如下图
  - 以前的方法是先Detection再Link。
  - CFAD是先粗略得到action tube，再进一步优化。
CFAD 的总体结构如下图所示
- 第一步，通过3D卷积网络提取特征；
- 第二步，获取 class-agnostic temporal proposals；
- 第三步，根据temporal proposals结果在3D卷积特征中获取对应的特征，作为后续Refine模块与Coarse模块的输入。
- 第四步，Coarse 模块细节，初步获取action tube。
- 第五步，Refine 模块细节，细化action tube的细节。
Coarse 和 Refine 模块的细节暂时不研究了。