DIN:用于群体行为识别的动态时空推理网络

本篇工作中,作者及团队提出了一种用于视频群体行为识别的动态时空推理网络(Spatio-Temporal Dynamic Inference Network for Group Activity Recognition),在时空图的推理过程中引入可变形卷积的思想,通过在局部的时空交互域上对中心人物的全局交互图进行预测并更新特征,解决了之前在群体行为识别中可能出现的过平滑问题和计算量大的缺点。在同等实验设定下,推理模块只需要使用以往模型10%不到的计算量和参数量,便可以在两个业界权威数据集上达到最优结果

论文链接:2108.11743.pdf (arxiv.org)

一般的群体行为识别框架:

1 相关背景

群体行为识别(GAR) 是人物行为识别的一个子问题,群体行为由人物的个人行为和人物之间的交互组成,该任务旨在推断场景中人物群体的整体行为。GAR有着丰富的应用场景,包括监控视频分析、体育视频解析、社交场景理解等。GAR的关键问题是在给定视频片段的情况下,结合时空交互因素来获得精细的行为特征表示。

最近提出的推理模块主要是结合时空交互因素来获得精细化的活动表示。目前采用最多的方法是递归神经网络、注意力机制和图神经网络(GNN)。GNN是GAR中经常采用的方法,它在构建的语义图上执行消息传递,并在公开的数据集上获得了具有竞争力的结果。然而,以前使用GNN的方法只在预定义的图上对个体之间的交互关系进行建模,但是存在以下缺点:

  1. 对于给定人的交互模式是预先定义的而不是基于目标人的视觉时空上下文,预定义的图推理不适用于所有人的特征更新

  1. 预定义全连接或者交叉连接的图模型很容易导致过度平滑,使特征无法区分并降低性能

此外,如果扩展到长视频剪辑或扩展到有太多人的场景中,它会产生更多的计算开销。

图 1 基于gnn的GAR时空域三种推理方案可视化。绿色节点表示要更新的特征。紫色节点表示更新绿色节点所涉及的特征。(a)全连通图推理;(b)纵横图推理;(c)提出了特定于人的动态图推理,每个绿色节点都是唯一的。虚线框是一个初始化交互域的示例。

针对上述缺陷,受《Deformable convolutional networks》、《Dynamic graph message passing networks》的启发,本文提出了动态推理网络(Dynamic Inference Network, DIN),它包含动态关系(Dynamic Relation, DR)和动态游走(Dynamic Walk, DW)。这两个模块结合起来可以预测特定于人的交互图,以更好地建模交互,如图1(c)所示。对于时空图上的某一特定人物特征,我们在其周围设置一个时空交互域作为初始化,由DR和DW共享。该交互域的大小不会受到空间或时间扩展的影响,从而减少计算。

在这个初始化的交互域中,我们使用DR来预测中心特征(特定的人)的关系矩阵,表示人与人之间的交互关系。然后,为了对长时期的时间和空间依赖性建模,我们使用DW来预测域内每个特征的动态游走偏移。动态游走允许局部初始化的交互域可以在全局的时空图上更新特征。DR和DW实现简单,很容易部署到任何广泛使用的主干网络上,作者把这整个时空推理框架称为DIN

此外,以往的方法很少进行计算复杂度分析,而计算复杂度是对设计模块的重要评价。因此本文进行了计算复杂性分析,并表明提出的模块在效果更好的同时,计算开销更低。

2 网络结构图

本文提出的DIN的基本框架如下图所示:DIN 的输入为一小段视频,将其输入选定的主干网络以提取视觉特征。对于主干网络,作者主要在ResNet-18和VGG-16上进行实验,然后应用RoIAlign提取与边界框对齐的人物特征,将其嵌入到D维空间中。作者首先构建一个初始化的时空图,该时空图的连接为人物特征的时空邻居(空间维度按照人的坐标排序)。在这个初始化的时空图上,作者在定义的交互域内进行动态关系和动态游走预测,得到中心特征各异的交互图(总共T×N个交互图),然后中心特征可以在各自的交互图上进行特征更新。最后,DIN通过全局的时空池化得到视频的特征表示

DIN网络从逻辑上可以分为时空特征提取和推理模块两部分,第一部分得到的是个体特征的集合, T,N表示时间步长(即时间维度)和每帧中标注的人的数量。论文提出的DR和DW模块动态地对每个特征预测一个特定的交互关系图。根据这些图我们可以对特定特征进行更新。

3 核心亮点

动态关系 Dynamic Relation

这里的动态指的是,关系矩阵仅仅依赖于初始化的交互场中的特征。所依赖的特征不是固定的,而是动态变化的。

对于原始时空图上选定的第 i 个特征,我们将 uᵢ 表示为其交互域内的堆叠特征,并用 K 作为交互域大小(例如,如果交互场是 3×3 ,则 K=9 )。我们将卷积重写为矩阵形式:

上面是计算第i个特征关系矩阵的表达式。这个算法和ARG的差异很大。这个应该是可变形卷积,之后再读相关论文进行理解。并且对于该矩阵,我们使用softmax进行归一化:

不同于以往在全局图上更新特征,我们使用以下方式更新特征,并且只使用单图更新:

上面的特征更新表达式从形式上与ARG的图卷积层是基本一致的,区别主要在于范围一个是K,另一个是T*N。

动态漫游 Dynamic Walk

虽然DR可以在初始化交互域推断出人物特征的关系,但它仍然遵循预定义的消息传递路线,且不能建模时空长距离的交互。我们提出了DW模块,该模块使交互领域内的特征能够在主时空图上执行动态游走,如上图中下部分支所示。通过DW,我们希望使用大小受限的交互域对复杂的全局时空依赖性进行建模。DW中的“动态”是指交互图依赖于已初始化交互域中的特征,这不再是预定义的。

为了允许动态行走,我们需要预测它们的时空动态行走偏移。对于选定的第 i 个人物特征,我们将交互域内所有特征的动态游走偏移表示为,同样通过卷积方式计算:

其中,预测动态游走偏移的线性投影矩阵,偏移量为所有交互域内堆叠起来的特征向量。

得到漫步偏移量后,动态漫步的特征的计算公式如下:

为第i个交互场的第k个特征的坐标。

结合DR和DW

基于游走后的特征,重新给出特征更新的公式:

4 实验结果

1 消融实验

论文进行消融实验来说明提出方法的有效性。MCA和MPCA分别代表,分类准确率和平均类准确率。

实验主要体现此方法在GAR问题中的有效性,并且DR和DW可以结合使用,均有不同程度的性能提升,且二者的顺序差异不大。

2 和近年顶会/顶刊上已发表工作的性能对比、参数对比、计算量对比

作者使用的初始化交互域为3×3,为了公平比较,本文将他们的所有主干设置为 ResNet-18。此外,主干网络和特征嵌入层的统计数据同样给出:对于720×1280图片,参数量为24.8M ,计算量为674.6 GFLOPs;对于480×720图片,参数量为24.8M,计算量为254.9 GFLOPs。结果表明,本文提出的模块更加高效。

3 三个模型在交互域变化时的性能变化分析

ST factorised表示本文的交互域分解为单独的时间和单独的空间,Lite模型表示使用更低的嵌入空间维度(论文中未使用Lite模型),可以发现两个模型的变体在长时空条件下,均可从不同角度降低计算复杂度,并且性能相比于之前的模型仍然有提升。

4 和State-of-the-arts方法对比

实验主要在Volleyball dataset和Collective Activity dataset两个业界权威数据集上进行对比。可以发现作者提出的方法具有更加卓越的性能。

本文提出的动态时空推理网络,通过在初始化的交互域中进行关系推理和全局游走的预测,其在群体行为识别中达到了SOTA的效果,并且推理模块计算开销显著减小。同时,群体行为识别还有很多可以尝试的方面包括更具有挑战性的数据集、动态融入全局上下文的方法等。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值