论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:上海交大&上海大学
    • 发表时间:AAAI 2020

1. 要解决什么问题

  • 之前主流的时空行为检测方法框架如下image_1ehhm5od71r85175i120u8je15n9.png-160kB
  • 上述框架的主要流程是基于检测的
    • 首先,通过短期信息(从帧或小片段)获取人物的信息。
    • 之后,通过启发式算法,对不同帧的bbox进行关联。
  • 上述框架存在的缺陷:
    • 输入数据中只有很少量的历史数据(brief temporal information),这使得相似的动作非常难以分辨。比如跳远和撑杆跳,前面都是跑,最后一点才有区别。
    • 这种方法要预测每一帧的信息,所以需要大量算力。

2. 用了什么方法

  • 为了解决之前架构的问题,提出了新的架构。新结构主要引入了两个概念:
    • 引入了LFB的思想,构建 long-term feature augmentation module(LFA),合并 short-term 与 long-term 的特征。
    • 引入了 sparse-to-dense 的思想,即构建 adaptive dynamic temporal sam-
      pling module,用于选择合适的时间点的帧,执行detection操作(而不是之前框架中,对每一帧都进行操作)。
    • 新老结构对比图如下所示
    • image_1ehi37v06viv1gnf11f35cpgkkm.png-206.5kB
  • 新结构的细节如下图
    • image_1ehi5bq6t14qfpmj29htaovim13.png-208kB
  • 需要进一步了解的细节有以下几个方面
    • temporal pyramid and prposals 的细节
      • 生成方法看论文就是1D conv + anchors
      • 没有彻底搞清楚这个anchors与输入clip的frames长度的关系(输入的clip会有这么长吗?)。
    • LFA的实现细节。
      • 看了论文,大概是说先3D CNN提取特征,然后temporal avg pool+1d提取temporal信息,然后通过这个temporal信息执行一个类似于注意力机制的网络从而获取长期信息。
      • 我不太懂,这个长期信息,好像也就是输入数据当前clip得到的,好像没有什么是一直保存着的,跟之前看的LFB有点区别。
    • Dynamic temporal sampling的细节。
      • 是对前面的每一个 temporal proposal 进行dynamic temporal sampling操作。
      • 好像重点是GT的生成?还没细看。
    • Sparsely sampled bounding box detection的细节。
      • 说是对2D特征进行检测操作。
      • 问题就是2D特征是怎么来的,刚开始不是3D卷积吗?难道是控制了feature的channel数量,从而在最后一层输出时channel数量与输入的frames数量相同?没细看这部分。
    • Dense tube generation from sparse proposals的细节。

3. 效果如何

  • 与SOTA的对比
    • image_1ehi5dihs1rgg1u1n3c11nn1pvs1g.png-111.7kB
  • 从时间性能上看,有很大优势。
    • 性能计算主要就是通过在JHMDB-21上跑一边,计算每个video的平均时间。
    • image_1ehi5e20p1k5e1ip4mn01ikg1iad1t.png-38.7kB

4. 还存在什么问题&有什么可以借鉴

  • 没有复现比较麻烦。

  • 速度看起来比较快,但真要用到online场景下好像不太现实,还需要进一步考虑下。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值