行为识别 - TAM: Temporal Adaptive Module for Video Recognition

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:南京大学&商汤研究院
    • 发表时间:2020.5,ICLR 2021
  • 一句话总结:提出了一种新的block结构,在BottleNeck的非skip分支中添加了仅处理时间维度信息的自适应卷积结构。

1. 要解决什么问题

  • 深度学习领域,视频相关研究比图像相关研究少/慢一些。
    • 视频相比于图像,其主要区别在于,除了要考虑空间特征,还需要考虑时间特征。
  • 在行为识别领域,要解决的主要问题就是 高效提取视频的时空特征,这也就是本文的目标。
    • 现在提取视频特征的主流方法是使用3D卷积,但3D卷积存在针对性差、计算量高的缺陷。
    • 对3D卷积的优化主要集中在两个研究方向:
      • 基于2D卷积的时间特征提取模块。
      • 设计专门用于时间特征提取的模块(而不是向3D卷积那么粗糙的方法)。

2. 用了什么方法

  • 提出了一种新的时间自适应结构(temporal adaptive module,TAM)。
    • 这种模块的关键在于,对于不同的视频有不同的处理,adaptive temporal kernels。(这种说法很有意思)
    • 在看了下面的网络结构后发现,在TAM模块内,卷积核会改变,特征图也做了处理。
  • TAM模块结构示意图如下(这张图TAM并不直观,还是下面一张图显示的TAM直观):
    • img
  • TANet结构示意图如下:
    • local branch 用于提取短期信息,global branch用于提取长期信息。
    • 其实看源码更好。
    • img

3. 效果如何

  • 在 Kinetics-400 上达到SOTAimg

  • 在Something-Something上也到SOTAimg

4. 还存在什么问题

  • 说是在同样FLOPs下性能更好,但测试基础是ResNet。
  • 等代码开源了之后想尝试下在MobileNet等网络上是否有效果。
  • 浏览了源码
    • 完全基于TSN/TSM的源码改写的,改的内容非常少,要在mmaction2中复现应该非常容易。
    • 提供了两类主干网络, resnet 和 bninception,但预训练模型只有R50的。
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值