【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展。该方法先将视频分成多个长度为 8 帧的片段,然后逐个处理输入片段。在处理过程中会使用锚点的方式为其生成具有各种空
间和时间大小的候选区域。接着,使用 3D 的池化层( pooling layer) 对这些区域的特征进行处理得到固定长度的特征向量,再输入到分类器,最后根据分类器预测结果将不同的候选区域连接起来。

它属于时空行为检测的泛化已有框架,这类方法借鉴了其他领域已有的架构,将其成功泛化到行为检测领域。由于这些检测框架经过了其他领域大量研究者的验证,加之行为检测与其他任务之间的相似性,这种做法提升行为检测性能的可能性很高。

论文地址

摘要

深度学习在图像分类和目标检测方面取得了很好的效果。然而,由于视频数据的复杂性和缺乏标注,深度学习对视频分析(如行为检测和识别)的影响有限。以往基于卷积神经网络(CNN)的视频行为检测方法通常包括两个主要步骤:帧级行为提名的生成和帧间提名的关联。这些方法大多采用 two-stream CNN 框架分别处理时空特征。在本文中,我们提出了一种端到端深度网络,称为管道卷积神经网络(T-CNN),用于视频中的行为检测。所提出的体系结构是一个统一的深度网络,能够根据3D卷积特征识别和定位行为。首先,一个视频被分成等长的片段,然后根据3D卷积网络(ConvNet)的特征,为每个片段生成一组tube提名。最后,利用网络流量将不同视频的视频提名链接在一起,并利用这些链接的视频提议进行时空行为检测。在几个视频数据集上的大量实验表明,与目前最先进的方法相比,T-CNN在裁剪和未裁剪视频中的分类和定位行为方面都具有优越的性能。

介绍

行为检测的目标是检测长视频中给定行为的每一次发生,并在空间和时间上定位每次检测。基于深度学习的方法显著提高了视频行为识别性能。相对于行为识别,行为检测具有灵活的体积形状和较大的时空搜索空间。

之前基于深度学习的行为检测方法首先通过流行的提名算法[5,30]或通过训练提名网络[19]检测帧级的行动提议。然后,帧级的行动提名被跨帧关联,通过基于跟踪的方法形成最终的行动检测。此外,为了同时捕捉一个行为的空间和时间信息,使用了two stream网络(空间CNN和运动CNN)。这样,空间信息和运动信息被分别处理。

在这里插入图片描述
图1 关于管道卷积网络(T-CNN)的总览

用于图像目标检测的区域卷积神经网络(R-CNN)由Girshick等人[4]提出。其次是[3]中提出的fast R-CNN,它也包括分类器。后来,faster R-CNN[21]通过引入区域提名网络而开发出来。它已被广泛应用于图像中的目标检测。将RCNN从2D图像推广到3D时空体积的自然方法是研究其对视频中行为检测问题的有效性。R-CNN方法的一个简单的时空泛化方法是将视频中的行为检测作为一组使用 faster RCNN的2D图像检测。然而,不幸的是,这种方法没有考虑到时间信息,也没有足够的表现力来区分行为。

受faster R-CNN开创性工作的启发,我们提出了管道卷积神经网络(T-CNN)用于行为检测。更好地捕捉视频的时空信息,我们利用三维ConvNet来进行行为检测,因为它能够捕捉视频中的运动特征,并在视频行为识别方面取得了很好的效果。我们提出了一个新的框架,利用3D ConvNet的描述能力。在我们的方法中,输入视频首先被分成等长的剪辑。然后将这些片段送入TPN (Tube Proposal Network),得到一组Tube Proposal。接下来,根据每个视频片段中的tube提案的行为得分和相邻提案之间的重叠进行链接,形成一个完整的tube提案,用于视频中的时空行为定位。最后,将兴趣管池(ToI)应用于链接的行为管建议,以生成一个固定长度的特征向量,用于行为标签预测。

我们的工作做出了以下贡献:

  • 我们提出了一种基于端到端深度学习的视频行为检测方法。它直接对原始视频进行操作,利用单个三维网络捕捉时空信息,根据三维卷积特征进行行为定位和识别。据我们所知,这是第一个利用3D ConvNet进行行为检测的工作。
  • 我们引入了一个管道提名网络,它利用在时间域的跳跃池,以保存时间信息的行动定位在三维体积。
  • 我们在T-CNN中提出了一种新的池层Tube-of-Interest (ToI) 池层。ToI池化层是R-CNN感兴趣区域(Region-of-Interest, RoI)池化层的三维泛化。它有效地缓解了变化的空间和时间大小的管道提名的问题。我们证明了ToI池化可以大大提高识别结果。
  • 我们广泛评估我们的T-CNN在从UCF-Sports、J-HMDB和UCF-101数据集裁剪的视频和THUMOS 14数据集未裁剪的视频中的行为检测,并实现最先进的性能。T-CNN的源代码将会公布。

2,相关工作

卷积神经网络(CNN)已经被证明在行为识别方面有很好的效果[17,18]。Karpathy等人在一段时间内探索了各种帧级融合方法。Ng等人的[31]使用了利用CNN特征的递归神经网络。由于这些方法只使用基于帧的CNN特征,因此忽略了时间信息。Simonyan等人[23]提出了行为识别的 two-stream CNN方法。除了经典的以图像为输入的CNN,它还有一个单独的光流网络。Wang等人将轨迹和CNN特征进行融合。虽然这些方法将手工制作的时间特征作为一个单独的流,在行为识别方面表现出了良好的性能,但它们没有使用端到端深度网络,需要单独计算光流和优化参数。3D CNN是解决这个问题的一个合理方案。Ji等人[9]提出了一种基于3D CNN的人体检测器和头部跟踪器来分割视频中的人体受试者。Tran等人[28]利用3D CNN解决大规模行为识别问题。Sun等人[26]提出了3D CNN的因式分解,并利用多种方法分解卷积核。然而,据我们所知,我们是第一批利用3D CNN进行行为检测的人。

与行为识别相比,行为检测是一个更具挑战性的问题[2,7],一直是一个活跃的研究领域。Ke等人提出了一种拥挤视频中的事件检测方法。Tian等人开发了时空变形部件模型[1]来检测视频中的行为。Jain等人的[6]和Soomro等人的[24]使用超体素和选择性搜索来定位行为边界。最近,研究人员已经利用深度学习的力量来检测行为。[5]的作者使用选择性搜索提取帧级行动建议,并使用维特比算法将它们连接起来。而在[30]中,帧级行为由EdgeBox获得,并通过跟踪算法链接。在[19]中提出了用于行为检测的 Two-stream R-CNNs,其中一个空间区域提名网络(RPN)和一个运动RPN用于生成帧级行为提名。然而,这些基于深度学习的方法通过连接帧级行为提名来检测行为,并通过训练Two-stream CNN分别处理视频的空间和时间特征。因此,视频的时间一致性在网络中没有得到很好的探索。相比之下,我们直接从输入视频中确定action tube提名,并使用3D CNN提取紧凑和更有效的时空特征。

对于图像中的目标检测,Girshick等人提出了Region CNN (R-CNN)[4]。在他们的方法中,区域提名提取使用选择性搜索。然后将候选区域弯曲到固定大小,送入卷积神经网络提取CNN特征。最后,训练支持向量机模型进行目标分类。一个快速版本的R-CNN, fast R-CNN,在[3]中呈现。与R-CNN的多级流水线方法相比,fast R-CNN将目标分类器整合到网络中,同时训练目标分类器和边界框回归器。引入感兴趣区域池化层,对不同大小的包围盒提取定长特征向量。最近,在[21]中提出了faster 的R-CNN。它引入了一个RPN(区域提议网络)来代替选择性搜索来生成提议。RPN与检测网络共享完整的图像卷积特征,因此proposal的生成几乎是免费的。faster R-CNN实现了最先进的对象检测性能,同时在测试期间是有效的。由于其高性能,在本文中,我们探索将 faster R-CNN从2D图像区域推广到3D视频容量,用于行为检测。

在这里插入图片描述
表1 T-CNN的网络结构。我们用形状 d × h × w d \times h \times w d×h×w来指代核,其中d是核深度,h和w是高度和宽度。其中C为通道数,D为帧数,H和W为帧的高度和宽度。toi-pool2仅存在于TPN中。

3,将R-CNN从2D推广到3D

由于空间和时间的不对称性,将R-CNN从2D图像区域推广到3D视频管道具有挑战性。与可以裁剪和重塑成固定尺寸的图像不同,视频在时间维度上有很大的差异。因此,我们将输入视频分成固定长度(8帧)的视频片段,这样视频片段就可以在固定大小的ConvNet架构下进行处理。此外,基于剪辑的处理降低了GPU内存的成本。

为了更好地捕捉视频中的时空信息,我们利用3D CNN来生成动作建议和行为识别。3D CNN相对于2D CNN的一个优点是它通过在时间和空间上应用卷积来捕捉运动信息。由于我们的方法不仅在空间维度上使用了3D卷积和3D max pooling,而且在时间维度上也使用了3D卷积和3D max pooling,从而减小了视频片段的大小,同时集中了可区分的信息。正如在[28]中所展示的,时间池化在识别任务中是很重要的,因为它能更好地建模视频的时空信息并减少一些背景噪声。然而,时间顺序信息丢失了。这意味着如果我们任意改变视频剪辑中的帧的顺序,最终的3D最大特征集将是相同的。这在行为检测中是有问题的,因为它依赖于特征立方体来获得原始帧的边界框。

在这里插入图片描述
图2:Tube of interest pooling

由于一个视频被一个片段一个片段地处理,action tube为不同的片段产生了不同的空间和时间大小的提名。这些剪辑建议需要链接到一个管道提名序列,该序列用于行为标签预测和定位。为了产生一个固定长度的特征向量,我们提出了一种新的池化层-Tube-of Interest。ToI池化层是R-CNN感兴趣区域(Region-of-Interest, RoI)池化层的三维泛化。经典的最大池化层定义了内核大小、步长和填充,这些决定了输出的形状。而对于RoI池化层,首先确定输出形状,然后确定核的大小和步幅。相对于以二维特征地图和二维区域作为输入的RoI池,ToI池处理特征立方体和三维管道。表示特征立方体的大小为 d × h × w d \times h \times w d×h×w,其中d、h、w分别表示特征立方体的深度、高度和宽度。特征立方体中的ToI由一个 d − b y − 4 d-by-4 dby4矩阵定义,该矩阵由分布在所有帧中的d个盒组成。方框由一个四元组 ( x 1 i , y 1 i , x 2 i , y 2 i ) (x^i_1, y^i_1, x^i_2, y^i_2) (x1i,y1i,x2i,y2i)定义,该四元组指定第i个特征图的左上角和右下角。由于d边框可能有不同的大小、纵横比和位置,为了应用时空池化,空间域池化和时间域池化是分开进行的。首先,首先, h × w h \times w h×w特征图映射被分为 H × W H \times W H×W个bins,每个单元对应一个大小约为 h / H × w / W h/H × w/W h/H×w/W.的单元。在每个单元格中,应用最大池化来选择最大值。其次,空间池的d个特征映射被暂时划分为D个bins。与第一步类似, d / D d/ D d/D相邻的特征映射被分组在一起,以执行标准的时间最大池化。因此,ToI池化层的固定输出大小是 D × H × W D ×H ×W D×H×W。图2展示了ToI池化的图解。

ToI池化层的反向传播将导数从输出返回到输入。假设 x i x_i xi是对ToI池化层的第i次激活, y j y_j yj是第j次输出。那么损失函数(L)对每个输入变量 x i x_i xi的偏导数可以表示为:
在这里插入图片描述
每个池化输出 y j y_j yj都有对应的输入位置 i i i。我们使用函数 f ( ⋅ ) f(·) f()来表示argmax选择。这样,下一层 ∂ L / ∂ y j ∂L/∂y_j L/yj的梯度只传递给达到最大 ∂ L / ∂ x i ∂L/∂x_i L/xi的那个神经元。由于一个输入可能对应多个输出,偏导数是多个源的累加。

参考

论文浏览(38) Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值