论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework

最新推荐文章于 2021-03-01 12:59:58 发布

清欢守护者

最新推荐文章于 2021-03-01 12:59:58 发布

阅读量376

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108439902

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：时空行为检测
- 作者单位：上海交大&上海大学
- 发表时间：AAAI 2020

1. 要解决什么问题

之前主流的时空行为检测方法框架如下
上述框架的主要流程是基于检测的
- 首先，通过短期信息（从帧或小片段）获取人物的信息。
- 之后，通过启发式算法，对不同帧的bbox进行关联。
上述框架存在的缺陷：
- 输入数据中只有很少量的历史数据（brief temporal information），这使得相似的动作非常难以分辨。比如跳远和撑杆跳，前面都是跑，最后一点才有区别。
- 这种方法要预测每一帧的信息，所以需要大量算力。

2. 用了什么方法

为了解决之前架构的问题，提出了新的架构。新结构主要引入了两个概念：
- 引入了LFB的思想，构建 long-term feature augmentation module(LFA)，合并 short-term 与 long-term 的特征。
- 引入了 sparse-to-dense 的思想，即构建 adaptive dynamic temporal sam-
  pling module，用于选择合适的时间点的帧，执行detection操作（而不是之前框架中，对每一帧都进行操作）。
- 新老结构对比图如下所示
新结构的细节如下图
需要进一步了解的细节有以下几个方面
- temporal pyramid and prposals 的细节
  - 生成方法看论文就是1D conv + anchors
  - 没有彻底搞清楚这个anchors与输入clip的frames长度的关系（输入的clip会有这么长吗？）。
- LFA的实现细节。
  - 看了论文，大概是说先3D CNN提取特征，然后temporal avg pool+1d提取temporal信息，然后通过这个temporal信息执行一个类似于注意力机制的网络从而获取长期信息。
  - 我不太懂，这个长期信息，好像也就是输入数据当前clip得到的，好像没有什么是一直保存着的，跟之前看的LFB有点区别。
- Dynamic temporal sampling的细节。
  - 是对前面的每一个 temporal proposal 进行dynamic temporal sampling操作。
  - 好像重点是GT的生成？还没细看。
- Sparsely sampled bounding box detection的细节。
  - 说是对2D特征进行检测操作。
  - 问题就是2D特征是怎么来的，刚开始不是3D卷积吗？难道是控制了feature的channel数量，从而在最后一层输出时channel数量与输入的frames数量相同？没细看这部分。
- Dense tube generation from sparse proposals的细节。

3. 效果如何

与SOTA的对比
从时间性能上看，有很大优势。
- 性能计算主要就是通过在JHMDB-21上跑一边，计算每个video的平均时间。

4. 还存在什么问题&有什么可以借鉴

没有复现比较麻烦。
速度看起来比较快，但真要用到online场景下好像不太现实，还需要进一步考虑下。

清欢守护者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文浏览(36) Finding Action Tubes with a Sparse-to-Dense Framework

文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&有什么可以借鉴0. 前言相关资料：arxivgithub论文解读论文基本信息领域：时空行为检测作者单位：上海交大&上海大学发表时间：AAAI 20201. 要解决什么问题之前主流的时空行为检测方法框架如下上述框架的主要流程是基于检测的首先，通过短期信息（从帧或小片段）获取人物的信息。之后，通过启发式算法，对不同帧的bbox进行关联。上述框架存在
复制链接

扫一扫

专栏目录