Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition

备注: 机翻,如有侵权,立即删除
code: https://github.com/artest08/LateTemporalModeling3DCNN
source: ECCV2020

Abstract

在本工作中,我们将3D卷积与后期时间建模相结合用于动作识别。 为此,我们将3D卷积体系结构末尾的传统时间全局平均池(TGAP)层替换为双向编码器表示的(BERT)层,以便更好地利用具有BERT注意机制提取时间信息。 实验表明,这种替换提高了许多流行的3D卷积结构的动作识别性能,包括ResNeXt、I3D、慢快和R(21)D。此外,我们还提供了HMDB51和UCF101数据集的最新结果,分别具有85.10%和98.69%的top-1精度。 代码是公开可用的。

1 Introduction

动作识别(AR)是指识别动作的标签或在视频剪辑中观察到的活动。 由于到处都有摄像头,AR在视频检索、监视、人机交互和机器人等许多领域已经变得必不可少。

视频剪辑包含AR的两个关键信息:时空信息。 空间信息表示场景中的静态信息,如对象、上下文、实体等,它们在视频的单个帧中是可见的,而时间信息则是通过将空间信息集成到帧上来获得的,它们大多捕捉到动作的动态性质。

本文提出并分析了文献中的两个时态建模概念,即三维卷积和晚期时态建模。简单地说,三维卷积是产生时间关系的一种方法从CNN架构的开始到结束都是分层的。 另一方面,晚期时间建模通常与2D CNN体系结构一起使用,其中由2D CNN体系结构从所选帧中提取的特征通常用递归体系结构建模,如LSTM、ConvLSTM。

尽管有其优点,但在所有3D CNN体系结构的末尾使用的时间全局平均池(TGAP)层[1,2,7,12,22,27,28,35]阻碍了最终时间信息的丰富性。 在TGAP之前的特征可以被认为是剪辑或视频的不同时间区域的特征。 虽然接收场可能覆盖整个剪辑,但有效的接收场具有高斯分布的[20],产生的特征集中在剪辑的不同时间区域。 为了区分动作,时间特征的一部分可能比其他部分更重要,或者时间特征的顺序可能比简单地平均时间信息更有益。 因此,TGAP忽略了这种排序,未能充分利用时间信息。

因此,我们建议使用BERT的注意机制来进行比TGAP更好的时间建模。 误码率决定了哪些时间特征与其多头注意机制更重要。

据我们所知,我们的工作是第一次提出用晚期时间建模取代3D CNN架构中的TGAP。 我们还认为,本研究是第一次利用BERT作为AR中的时间池策略。 我们表明,BERT比平均池、级联池和标准LSTM具有更好的时间池。 此外,我们还证明了用BERT进行的后期时间建模通过使用HMDB51数据集的分裂-1来提高AR的各种流行的3D CNN体系结构的性能,这些结构是ResNeXt101、I3D、慢速和R(21)D。 使用BERTR(21)D架构,我们获得了新的状态的艺术结果;85.10%和98.69%的Top-1性能在HMDB51和UCF101数据集中

3 Proposed Method

在这一部分中,介绍了本研究提出的方法。 首先,在3.1节中给出了主要的方法,即基于BERT的基于3D CNN的活动识别时间建模。 接下来,在3.2节中提出了一些新的特征约简块。 这些块被用来减少所提出的基于BERT的时间建模的参数数量。 第三,在3.3节中研究了基于BERT的慢快速体系结构的时态建模实现。 在慢快架构上重新考虑基于BERT的后期时间建模是由于其与其他3D CNN架构不同的两流结构。

3.1 BERT-based Temporal Modeling with 3D CNNs for Action Recognition

来自变形金刚(BERT)[4]的双向编码器表示是一种双向自保持方法,在许多下游自然语言处理(NLP)任务中提供了前所未有的成功。 双向特性使BERT能够从两个方向融合上下文信息,而不是只依赖一个方向,如在以前的递归神经网络或其他自我注意方法中,如Transformer[29]。 此外,BERT引入了具有挑战性的无监督训练前任务,这导致了许多任务的有用表示。
在这里插入图片描述
我们的体系结构使用基于BERT的时间池,如图所示。 1. 在该体系结构中,从输入序列中选择的K帧通过三维CNN结构传播,而不应用时间全局平均池化在体系结构的末尾汇集。 然后,为了保存位置信息,在提取的特征中添加了学习的位置编码。 为了用BERT进行分类,附加的分类嵌入(xcls)被附加为[4](在图中表示为红色框。 1)。 该体系结构的分类是用相应的分类向量ycls来实现的,ycls被赋予完全连接的层,产生预测的输出标签ˆy。

将BERT的一般单头自保持模型制定为:
在这里插入图片描述
其中xi值是由提取的时间视觉信息及其位置编码组成的嵌入向量;i表示目标输出时间位置的索引;j表示所有可能的组合;N(X)是归一化项。 函数g(·)是BERT自保持机制内的线性投影,而函数f(·,·)表示xi与xj:f(xi,xj)=Softmaxj(θ(Xi)Tφ(X J)之间的相似性,其中函数θ(·)和φ(·)也是线性投影。 可学习函数g(·)、θ(·)和φ(·)试图将特征嵌入向量投影到注意机制更有效工作的更好空间。 将g(·)、θ(·)和φ(·)函数的输出分别定义为值、查询和键[29]。 Pf F N(·)是分别和相同地应用于所有位置的位置前馈网络:Pf F N(X)=W2GEL U(W1xB1)B2,其中GELU(·)是高斯误差线性单元(GELU)激活函数[13]。

分类的最终决策是以ycls作为输入的另一个线性层执行的。 可将ycls的显式形式写成:
在这里插入图片描述
因此,我们对BERT的时间注意机制的使用不仅是为了学习注意机制有效工作的方便子空间,而且也是为了学习如何正确地处理三维CNN体系结构的时间特征的分类嵌入

用非局部神经网络(N N)[34]实现了类似的动作识别工作。 非局部块的主要目的是创建全局时空关系,因为卷积操作仅限于局部区域。 为此目的,非局部块使用类似的注意概念,使用1x1x1CNN滤波器,以实现g(·)、θ(·)和φ(·)函数。 非局部和建议的BERT注意的主要区别在于,非局部概念[34]不是在体系结构的末尾使用,而是在体系结构内的一些首选位置。然而,我们基于BERT的时间池是在3D CNN体系结构的提取特征上实现的,并利用多头注意概念来创建与自注意的多重关系机制。 此外,它还利用位置编码来保存订单信息,并利用可学习的分类令牌。

另一项类似的动作识别研究是视频动作变压器网络[10]其中变压器被用来从周围视频中的其他人和对象聚合上下文信息。 视频动作变压器网络既涉及动作定位,又涉及动作识别;因此,其问题的制定与我们的不同,需要重新制定其注意机制,以便于动作识别的后期时间建模。 与视频动作变压器网络不同的是,我们提出的基于BERT的后期时间建模使用了可学习的分类令牌,而不是使用骨干结构输出的集合特征。

3.2 Proposed Feature Reduction Blocks: FRAB & FRMB

误码率的计算复杂度随CNN骨干输出特征的维数呈二次增长。 因此,如果输出特性的维数不减少,则BERT模块可能比骨干本身具有更多的参数。 例如,如果输出特征的维数为512,则单层BERT模块的参数约为300万,而输出特征维数为2048的参数大小约为5000万。
在这里插入图片描述
因此,为了更有效地利用BERT体系结构,提出了两个特征约简块。 这些是改进块(FRMB)的特征减少和附加块(FRAB)的特征减少)。 在FRMB中,CNN骨干的最终单元块被一个新的单元块所取代,其目的是降低特征维数。 在FRAB中,附加的单元块被附加到主干上以减少维度。图2给出了FRMB和FRAB在ResNeXt101骨干上的一个示例实现。

与FRAB实现相比,FRMB实现的好处是它具有更好的计算复杂度和参数效率。 此外,FRMB甚至比原始骨干具有更好的计算复杂度和参数效率。 对于FRAB来说,FRMB的一个可能的缺点是,如果特征约简块仅在微调步骤中实现,而不是在预训练中实现,则最终块不会受益于较大数据集的预先训练的权重

3.3 Proposed BERT Implementations on SlowFast Architecture

慢快架构[7]为两流架构引入了不同的视角。 整个体系结构不使用两种不同的模式作为两个相同的流,而是包括两个不同的流(即快速和缓慢的流或路径),对于单个模式具有不同的功能。 在慢速体系结构中,慢流具有更好的空间能力,而快速流具有更好的时间能力。 与慢流相比,快流具有更好的时间分辨率和较少的信道容量。

由于其具有不同时间分辨率的双流结构,无法直接实现3.1节中解释的基于BERT的后期时间建模。 因此,为了在慢快速体系结构上进行基于BERT的后期时间建模,提出了两种替代解决方案:早期融合BERT和晚期融合BERT。 在早期融合BERT中,在BERT层之前将时间特征串联起来,只使用单个BERT模块。 为了使级联可行,将快流的时间分辨率降低到慢流的时间分辨率。 在后期融合BERT中,采用了两个不同的BERT模块,每个流一个,两个流的两个BERT模块的输出被连接起来。 早期融合和晚期融合的数字如图3所示。
在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

本研究结合了AR文献中的两个主要成分,即晚期时间建模和三维卷积。 虽然有许多池、融合和递归建模策略应用于2D CNN架构的特征,但我们坚信,这份手稿是第一份删除时间全局平均池(TGAP)并更好地在3D CNN架构的输出中使用时间信息的研究。 为了利用这些时间特征,选择了一种基于注意的机制,即BERT。 这种想法的有效性在大多数流行的3D CNN架构上得到了证明它们是ResNeXt、I3D、慢快和R(21)D。此外,在HMDB51和UCF101数据集中,对最先进的技术进行了显著的改进。

本研究最重要的贡献是引入了晚期时间池概念,为在3D CNN架构上更好的基于BERT的晚期时间池策略铺平了道路,作为未来的工作,尽管BERT比平均池、级联池和标准LSTM池获得了更好的性能。 一个可能的研究方向可能是建议参数有效的BERT实现,这些实现不需要特征约简块(FRMB或FRAB),因为特征维数的减少,从而降低了最终提取特征的能力。 此外,作为未来的工作,无监督的概念仍然可以在BERT3D CNN架构上提出,因为BERT架构的真正好处是通过无监督技术上升到表面。 最后,该方法还具有改进AR类似任务的潜力,如时间和空间动作定位和视频字幕。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值