行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:MIT & IBM
    • 发表时间:2020.10
  • 一句话总结:实验报告,总结现有行为识别模型的特点

1. 要解决什么问题

  • 当前行为识别模型研究现状:

    • 2D模型在Something-Something上效果更好,3D模型在Kinetics上效果更好。
    • 现在行为识别模型的对比上一般会关注accuracy和efficiency,而忽略其他细节,比如backbone。
    • 一般认为,对时间维度建模在行为识别中非常重要,但最新研究表明,在Kinetics和Moments-in-Time数据集上,纯spatial模型的效果跟spatio-temporal模型效果差不多,甚至更好。
    • 行为识别近些年的研究,主要集中在efficientcy上,在accuracy上提高较少。

    image-20201027020840615

  • 进一步对比、分析现有行为识别模型的结果。

    • 特别要比较2D与3D模型之间的关系。

2. 用了什么方法

  • 构建统一结构,控制变量,分析2D与3D模型。

3. 效果如何

  • 对结果进行分析,得出一些有趣的结论:

    • 行为识别近些年的研究,主要集中在efficientcy上,在accuracy上提高较少。
    • 2D与3D模型,如果除结构其他参数完全相同,那么两者模型的时空表达能力差不多。
    • 高效的空间建模对结果影响很大,甚至对Kinetics的影响也很大。
    • 分析数据顺序对结果的影响
      • temporality is not considered as intrinsic in action data by recent spatio-temporal models。
  • 对比了2D与3D模型

image-20201027022435221

  • 两种常见的抽帧策略:uniform sampling 和 dense sampling

image-20201027023227511

  • 不同的temporal aggregation策略

image-20201027023302085

  • 人和模型对于 data temporality 的理解非常不同

    • 人选出一些时间顺序相关的动作
    • 使用TSN和TAM训练一些模型,将性能提升最大的那些类认为是“模型认为data temporality较大的类”

    image-20201027025446942

4. 还存在什么问题&可借鉴之处

  • 使用的训练策略如下

image-20201027022716349

  • 对比I3D/TAM/SlowFast的temporal gain,其实差不多
    • 所谓 temporal gain,就是与TSN比accuracy上升幅度。
    • 2D/3D模型其实差不多。

image-20201027030132329

  • 关于 data temporality 有一个现象
    • 如果把模型认为最 data temporality 的40类去掉,总体accuracy提升了(说明temporal相关类的准确率较低)
    • 去掉temporal相关类后,acc增加,ATG-all和ATG-tc没有下降太多。
    • ATG是 average temporal gain的缩写,即通过temporal操作提高的精度。all代表所有类,tc代表temporal gain 最高的40类。

image-20201027030328238

时空动作检测(spatio-temporal action detection)是一项计算机视觉任务,旨在从视频片段中准确地检测和识别出发生的动作。与传统的动作识别任务相比,时空动作检测旨在通过不仅仅检测动作在空间上的出现,还要捕捉动作在时间上的变化。 时空动作检测往往涉及以下几个主要步骤: 1. 帧级特征提取:首先,利用现有的特征提取技术,从每个视频帧中提取稳定而有信息量的特征,以捕捉空间信息。 2. 时间建模:接下来,通过对连续帧之间的变化进行建模,来捕捉动作的时间相关性和动态信息。这可以通过各种技术,如光流,差分图和循环网络等来实现。 3. 动作检测:在获得空间和时间特征后,利用学习算法(如深度神经网络)来进行动作检测。这通常通过将时空特征输入到分类器,然后根据预先训练的模型推断动作类别和位置。 4. 时空定位:最后,定位动作在视频中的准确位置。这可以通过在时间上进行滑窗检测,并使用非极大值抑制来抑制重叠检测结果来实现。 时空动作检测在很多领域具有广泛应用,比如视频监控、智能交通、运动分析和人机交互等。通过准确地检测和识别动作,我们可以实现更精确的行为理解和动作预测,从而为许多实际应用带来便捷和效益。然而,时空动作检测仍然存在一些挑战,如动作遮挡、背景干扰和不同尺度的动作等问题,所以该领域的研究仍在不断发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值