论文浏览(47) CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:上海交大&上海大学
    • 发表时间:ECCV 2020

1. 要解决什么问题

  • 之前的 action detection 方法都是先在 frame-wise 或 clip wise 进行检测,得到 action proposals,在连接结果。
    • 因为要对每一帧都要进行检测,所以从时间性能上看很受到限制。
    • 每次输入都是一帧或几帧(clip),所以得到的信息都收到了限制,在进行行为分类或行为定位(localization)时也都会存在限制。
    • 训练过程中,tubes一般都是不完整的(因为整个tube的所包含的帧太多,每个样本输入的帧数量有限)。
    • 在遇到存在偏差的bbox时,基于IOU的link方法会导致误差累积,结果不准确。

2. 用了什么方法

  • 提出了 Corarse-to-fine action detector(CFAD) 用来替代 detect-and-link 策略
    • 思路是:较近时间间隔内bbox的变化是线性的,也就是说,不用每一帧都进行检测。
    • 以前方法的思路以及CFAD思路对比如下图
      • 以前的方法是先Detection再Link。
      • CFAD是先粗略得到action tube,再进一步优化。
      • image_1ejaovj4n1eau1is2tq9rqr1mva9.png-152.8kB
  • CFAD 的总体结构如下图所示
    • 第一步,通过3D卷积网络提取特征;
    • 第二步,获取 class-agnostic temporal proposals;
    • 第三步,根据temporal proposals结果在3D卷积特征中获取对应的特征,作为后续Refine模块与Coarse模块的输入。
    • 第四步,Coarse 模块细节,初步获取action tube。
    • 第五步,Refine 模块细节,细化action tube的细节。
    • image_1ejap914c126l4g6121o8rj1kn3m.png-444.8kB
  • Coarse 和 Refine 模块的细节暂时不研究了。

3. 效果如何

  • 通过 CFAD 得到的结果mAP差不多,但速度快不少。
    • image_1ejaptq38or61edkp8u1mfqptb13.png-120.3kB
    • image_1ejapue47106k199a1nfa1ijackp1g.png-131.9kB

4. 还存在什么问题&有什么可以借鉴

  • 看起来就是offline版本的内容,不知道要如何引入online版中。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页