论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:格勒诺布尔大学 & 爱丁堡大学
    • 发表时间:CVPR 2017

1. 要解决什么问题

  • 之前的时空检测模型都是先检测frame的结果,然后再link。
    • 单独处理每一帧图片并不是最优方法。
    • 没有完全利用到视频的连续性(temporal continuity)
    • 例如下图,从一张图片中并不能判断是要坐下还是起身。
    • image_1ehoe7j841bg47gv16piou51pqn9.png-239.2kB

2. 用了什么方法

  • 提出了ACT-Detector,主要目标就是输入一组图片,输出tubelet。
    • 假设输入有K张图片。
    • 那就是先用普通SSD,对K张图片分别执行特征提取。
    • 对于K张图片对应SSD中指定层的feature map进行拼接,利用拼接结果执行bbox reg。
    • bbox reg的输出结果长度为4K,即K次bbox reg。
    • 分类任务只执行一次。
    • 注意,这里的bbox reg当然也是基于 anchor 的修改,不过是基于 anchor cuboids 的修改(我的感觉就是,每个anchor cuboid是对所有帧的分别制定了anchor)
    • image_1ehoes2fs1m7t1fkmqkku0716ij1m.png-242.9kB
  • 双流结构
    • 也是以RGB与光流作为输入,分别经过各自的SSD提取tubelet。
    • 每个分支都是输出若干tubelet以及对应score。
    • 有两种融合方式
      • union fusion:并集。
      • late fusion:没细看,好像意思是对每个anchor cuboids对应的tubelet进行操作。
  • 从action tubelets到spatio-temporal tubes
    • 猜测就是每次得到的tubelets都是一个clip的,需要多个clip的tubelets进行关联。
    • 具体实现细节没细看,不过猜测也就是score+overlap相互结合。

3. 效果如何

  • 有两个性能指标
    • frame-level metrics:检查每一帧的质量,不考虑linking
    • video-level metrics:与frame-level类似,只不过把IoU对比改为spatio-temporal overlap的对比。
    • image_1ehop6frn2121trm1oau1jjo1hcg2g.png-37.6kB
    • image_1ehop69741fpl7ge1sku1gkl1opi23.png-81.8kB

4. 还存在什么问题&有什么可以借鉴

  • 这里的行为识别感觉都没用上3D CNN,我猜这几个数据集的行为识别难度不是太大……

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值