《Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition》阅读笔记

《Deep Analysis of CNN-based Spatio-temporal Representations for
Action Recognition》
论文连接:https://arxiv.org/abs/2010.11757
代码连接:https://github.com/IBM/action-recognition-pytorch.

Abstract

近年来,出现了许多基于二维或三维卷积神经网络(CNN)的视频动作识别方法,在几个大规模基准数据集上取得了最先进的结果。在本文中,我们进行了深入的比较分析,以更好地理解这些方法之间的差异和它们所取得的进展。为此,我们为2D-CNN和3D-CNN动作模型开发了一个统一的框架,这使我们能够消除花哨的功能,并为公平的比较提供了一个共同的基础。然后,我们努力对涉及300多个行动识别模型进行大规模分析。我们的综合分析显示,a)在行动识别的效率上有了显著的飞跃,但在准确性上没有;b)2D-CNN和3DCNN模型在时空表征能力和可转移性方面表现相似。

1. Introduction

在该领域中,有几个基本问题在很大程度上仍未得到解答。

  • 在时空表征方面,近来的方法中是哪一结构在起作用?
  • 这些方法是否能使更有效的时间建模,这是行动识别的关键?
  • 此外,在准确性方面,2D-CNN和3DCNN方法之间似乎没有明显的赢家。3D模型在Kinetics数据集上表现更好,2D模型在sth-sth数据集上表现更好
  • 这两种类型的模型在视频数据的时空建模方面的表现有何不同?

文章认为难以理解行动识别的最新进展,主要是由于与数据集、骨干和实验实践相关的绩效评估缺乏公平性。与ImageNet作为评估的金标准基准的图像识别相比,至少有4个∼5个流行的行动数据集被广泛用于评估。
此外,在目前的研究中,似乎有一种倾向,即过度关注追求最先进的(SOTA)性能,但忽略了其他重要的因素,如主干网络和输入帧的数量。例如,基于3DinceptionV1的I3D已经成为了一个“看门人”的基线,可以与最近提出的任何行动识别方法进行比较。然而,这种比较对于ResNet50等更强的骨干往往是不公平的。以ResNet50为骨干的I3D,其性能与许多最近被认为更好的方法相当或优于它们。因此,无论一种方法的改进结果来自更好的主干还是算法本身,这样的评估几乎不能提供信息。
在这里插入图片描述

Figure 1: Recent progress of action recognition on Kinetics-400 (only models based on InceptionV1 and ResNet50 are included). Models marked with * are retrained and evaluated (seeSection 6.2) while others are from the existing literature. The size of a circle indicates the 1-clip FLOPs of a model. With temporal pooling turned off, I3D performs on par with the state-of-the-art approaches. Best viewed in color.

针对上述问题,文章的主要贡献如下:

  • 一个为行动认可的统一框架。(A unified framework for Action Recognition.)
    我们为2D-CNN和3DCNN方法提出了一个统一的框架,并实现了几种具有代表性的方法来对三个标准的动作识别基准数据集进行比较分析。
  • 时空分析(Spatio-Temporal Analysis.)
    我们系统地比较了2D-CNN模型和3D-CNN模型,以更好地理解这些模型的差异和时空行为。我们的分析导致了以下一些有趣的发现:a)时间池化倾向于抑制行动模型中的时间建模的有效性,但令人惊讶的是,它为TSN提供了显著的性能提升b)通过消除2D-CNN模型和3D-CNN模型之间的非结构差异,它们在时空表征能力和可转移性方面表现相似。
  • SOTA方法的基准测试(Benchmarking of SOTA Approaches.)
    我们对几种SOTA方法进行了彻底的基准测试,并将它们与I3D进行了比较。我们的分析显示,I3D在准确性方面仍然与SOTA方法保持一致(图1),而最近在动作识别方面的进展主要是在效率方面,而不是在准确性方面。我们的分析还表明,在比较两个模型时,为了公平性,应该考虑一个模型(即均匀或密集抽样)所采用的输入抽样策略。

2. Related Work

大多数成功的动作识别深度体系结构通常是基于双流模型,在两个独立的cnn中处理RGB帧和光流,在上层中进行融合。
另一种简单但流行的方法是使用2D-CNN来提取帧级特征,然后对时间因果关系进行建模。
例如,TSN提出了共识模块来聚合特征;另一方面,TRN使用特征包来建模帧之间的关系。TSM沿着时间维度移动部分通道,从而允许在相邻帧之间交换信息,而TAM基于深度1×1卷积,以有效地捕获帧间的时间依赖性。
另一种方法是使用3D-CNN,它扩展了二维模型在图像识别中的成功来识别视频中的动作。例如,C3D通过使用大规模视频数据集来学习优于2Dcnn的三维conv神经网络。引入了许多3D-cnn来学习时空特征,如I3D和ResNet3D。3DCNN特征也被证明可以很好地推广到其他视觉任务中,如动作检测、视频字幕、动作定位和视频摘要。尽管如此,由于三维卷积导致了高计算负荷,有些工作旨在通过将三维卷积分解为二维空间卷积和一维时间卷积来降低复杂性例如,P3D,S3D,R(2+1)D,或合并群卷积(incorporating group convolution);此外,slowfast采用两种路径,通过以慢帧率和快帧率处理视频,来捕获短期和长期的时间信息。利用弱监督或 distillation是行动识别的另一个最新趋势。

3. Challenges of Evaluating Action Models

  • 评估动作模型的第一个挑战来自于与图像分类的ImageNet不同,动作识别并不是每一篇论文都有一个广泛使用的数据集。
    最流行的Kinetics-400被大约60%的论文使用
    另一方面, Something-Something (V1 and V2),与Kinetics-400有非常不同的时间特征,也被大约50%的论文使用。
  • Backbone.我们观察到大约70%的论文比较了不同骨干的结果(例如,大多数论文使用ResNet50作为骨干,但与使用InceptionV1作为骨干的I3D进行了比较)。
    比较具有不同类型骨干的行动模型往往会导致错误的结论,这也使得人们更难以评估所提出的时间建模的优势。例如,在I3D中使用更强的主干,它将动力学-400上的结果提高了4.0%
  • 大约80%的论文使用不同的帧数进行比较。这是因为每种方法都可能更喜欢不同的帧数;然而,在不同的帧数下进行比较,可能有利于所提出的方法或参考方法。
  • Training Protocol.大约60%的论文使用不同的协议来训练动作识别模型。
  • Evaluation Protoco.由于模型是在不同的采样策略和输入长度下进行训练的,因此使用一个模型从一个视频中取多个片段进行预测。因此,不同的评价方案可能会导致不清楚的比较。大约60%的论文对模型的评价与其他论文相比有所不同。

4. 2D-CNN and 3D-CNN Approaches

为了解决上述问题,为了进行公平的比较,我们分析了几种流行的2D-CNN和3DCNN用于动作识别的方法,包括I3D、ResNet3D、S3D、R(2+1)D、TSN和TAM。
这些方法不仅可以在流行的大规模数据集上产生具有竞争性的结果,而且还可以广泛地作为许多其他连续方法的基本构建块,如SlowFast和CSN。
为了消除这些细节并确保公平的比较,我们在图中显示,2D和3D模型可以用一个通用框架来表示。在这种框架下,动作识别模型被视为一系列堆叠的具有时间池化的时空模块。因此,一个模型与另一个模型的区别只能归结为它的时空模块。在这个框架下,我们重新实现了比较中使用的所有方法,这允许我们灵活测试使用不同配置测试方法,如主干、时间池和时间聚合。
在这里插入图片描述

5. Datasets, Training, Evaluation Protocols

为了确保公平的比较和促进再现性,我们使用相同的数据预处理、训练协议和评估协议对所有模型进行训练。

  • Datasets.我们选择了v2(SSV2)、Kinetics-400(Kinetics)和Moments-in-time(MiT)进行实验。我们还创建了每个数据集的一个迷你版本:Mini-SSV2Mini-Kinetics通过随机选择一半的SSV2和Kinetics类别,占其完整数据集的一半。Mini-MiT在MiT官方网站上提供,包括完整数据集中1/8的视频。
  • Training.我们使用不同的输入帧逐步训练模型。让Ki∈[8,16,32,64],i=1…4。首先用8帧训练一个启动模型。该模型要么用(如I3D)要么从相应的(如TAM)ImageNet预训练模型进行初始化。然后,我们使用Ki−1帧从模型的Ki帧微调模型。
  • Evaluation.**视频动作识别有两个主要的评价指标:段级精度(clip-level accuracy)和视频级精度(video level accuracy)。**因此,视频级精度通常高于段级精度。默认情况下,我们报告段级的精度。

6. Experimental Results and Analysis

6.1. Performance Analysis on Mini Datasets
  • Backbone Network and Input Length.
    时空表征能力:ResNet50 > InceptionV1> ResNet18;
    更长的输入帧往往会产生更好的结果;
  • Input Sampling.在行动识别中,广泛采用了两种采样策略来创建模型输入。第一个是均匀采样(Uniform sampling),这在二维模型中很常见,它将一个视频分成多个等长的片段,然后从每个片段中随机选择一帧。三维模型采用的另一种方法是密集采样(dense sampling),而不是直接以一组连续帧作为输入。然而,目前还不清楚为什么这两种类型的模型更喜欢不同的输入。在所有情况下,均匀采样都比密集采样产生更好的段级精度。
  • Temporal Pooling.时间池化通常应用于三维模型,以降低计算复杂度。时间池通常抵消了时间建模的有效性,并损害了动作模型的性能,就像空间池化对目标识别和检测所做的事情一样。由于这个原因,最近的3D-CNN方法,如SlowFast和X3D放弃时间池化,并依赖其他技术来减少计算。有趣的是,TSN是唯一受益于时间池的架构。
6.2. Benchmarking of SOTA Approaches
  • Results on Full Datasets.I3D-ResNet50展示了令人印象深刻的结果,在所有三个数据集上的准确性与最先进的方法保持一致。I3D在多个大规模数据集上仍然非常强大的事实表明,最近行动识别在准确性方面的进展很大程度上归因于使用了更强大的主干网络,而不是像预期的那样改进的时空建模。
  • Uniform Sampling vs Dense Sampling.均匀采样结果和密集采样结果之间的差异较小,相比之下,均匀采样不如密集采样友好。
  • Model Transferability.三种模型在下游任务上的性能非常相似(差异小于2%)。特别是,I3D在迁移学习中与TAM和快速等SOTA方法相当(例如,I3D在UCF101上获得的最佳准确率为97.12%),这再次证实了改进的时空建模很大程度上是由于使用了更强的骨干。在这里插入图片描述
6.3. Analysis of Spatio-temporal Effects

人们普遍认为,时间建模是动作识别的核心,而最先进的方法可以捕获更好的时间信息。然而,它也在Kinetics和Moments-in-Time (MiT)等数据集上得到了证明,与更复杂的时空模型相比,纯基于空间建模的方法可以获得非常有竞争力的结果。这些发现似乎意味着,对于“静态”数据集,如Kinetics and MiT更复杂的时间建模不是必要的。

  • Temporal Aggregation.时间建模的本质是它如何聚合时间信息。二维架构在时间建模方面提供了很大的灵活性。例如,TSM和TAM可以很容易地插入到CNN中来学习时空特征。实验表明我们需要有效的时间模型去达到有竞争力的结果,即使是在Kinectics和MIT数据集上。
  • Locations of Temporal Modules.时间模块的位置(上半部分)只在Mini-SSV2上达到最佳精度,而Mini-Kinetics的精度对时间模块的数量和位置不敏感。因此,探索这种深刻的观察是否可以通过混合二维和三维建模,导致一个有效但有效的视频架构。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

K_K_Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值