【论文笔记】Learning Actor Relation Graphs for Group Activity Recognition

论文地址:https://arxiv.org/abs/1904.10117

1. ARG的作用

  • Actor Relation Graph(ARG) 是论文提出的一种用于多人场景中识别群体活动的灵活高效的深度模型。

  • ARG通过对多人场景中各个角色之间的关系进行建模,能够同时捕获角色之间的外观和位置关系。

  • 借助于图卷积网络(Graph Convolutional Network),ARG中的连接可以从群体活动视频中以端到端的方式自动学习,并且可以通过标准矩阵运算高效地在ARG上进行推理。

2. 论文的目的

2.1. 背景
  • 群体活动识别是视频理解中的一个重要问题。为了理解多人的场景,模型不仅需要描述上下文中每个参与者的个人行为,还需要推断他们的群体活动。准确捕捉参与者之间的相关关系并进行关系推理的能力对于理解多人的群体活动至关重要。

  • 设计识别群体活动的深度模型需要考虑的两个重要线索:外观特征相对位置

2.2.现有方法的问题
  • 通常在视频中的集体活动识别方面的深度学习方法遵循两个阶段的识别流程:(1)通过卷积神经网络(CNN)提取人物级特征。(2)设计一个全局模块来聚合这些个人级别的表示,以生成场景级别的特征。

    问题在第二阶段:用于对参与者之间关系建模的模型结构要么是事先人为指定的、不灵活的,要么是复杂但不直观的消息传递机制。

  • 为了捕获时间动态,通常使用递归神经网络(RNN)来模拟密集采样帧的时间演化。这些模型的计算成本通常很高,有时缺乏处理群体活动变化的灵活性。

2.3.论文提出的解决方法
  • 构造灵活高效的参与者关系图(ARG),以同时捕获角色之间的外观和位置关系,用于群体活动识别。它提供了一种可解释的机制来明确地模拟场景中人与人之间的相关关系,从而识别不同群体活动的能力。
  • 通过应用GCN和稀疏时间采样策略对参与者关系图进行推理。该网络能够由参与者之间的关系进行相关推理,以达到群体活动识别的目的。

3. 论文的方法介绍

3.1. 群体活动识别框架

在这里插入图片描述

  • 第一步:从视频中均匀地采样一组K帧,并从采样帧中提取参与者的特征向量。用RoIAlign从帧特征映射中提取每个角色边界框的特征。然后,在对齐的特征上执行fc层,以获得每个参与者的d维外观特征向量。K帧中边界框的总数表示为N。N×d维的矩阵X表示角色的原始特征向量。
  • 第二步:基于参与者的原始特征构建参与者关系图(ARG),其中每个节点表示一个参与者。每条边都是一个标量权重,它是根据两个参与者的外观特征及其相对位置来计算的。同一组参与者特征构造多个关系图以表示不同的关系信息。
  • 第三步:应用GCN进行基于ARG的关系推理。在图卷积之后,将参数融合在一起,生成N×d维的参与者的关系表示。然后,将分别用于识别个体行为和群体活动的两个分类器应用于集合参与者的关系表示和原始表示。论文在个体表示上应用了一个全连接层来进行个体动作分类。参与者表示被最大化合并在一起以生成场景级表示,该表示用于通过另一个全连接层进行群体活动分类。
3.2. 构建参与者关系图
3.2.1. 图的定义

j j j个参与者相对于第 i i i个参与者的重要性用图 G i , j G_{i,j} Gi,j表示为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eyq7hxnp-1634287123996)(https://i.loli.net/2021/09/04/A5cKu8mMgJlh3U1.png)]

其中 x i s x_{i}^{s} xis​和 x j s x_{j}^{s} xjs​分别表示 i i i​和 j j j​的位置特征, x i a x_{i}^{a} xia x j a x_{j}^{a} xja分别表示 i i i j j j的外观特征。

下面讨论位置关系计算函数 f s f_{s} fs和外观关系计算函数 f a f_{a} fa的不同设置方法。

  • 外观关系

    (1)点积

    image-20210904193428530

    ​ 其中 d \sqrt{d} d 表示一个标准化银因子。

    (2)嵌入点积

    image-20210904193903099

    ​ 其中 θ ( x i a ) T = W θ x i a + b θ \theta(x_{i}^{a})^{T}=W_{\theta}x_{i}^{a}+b_{\theta} θ(xia)T=Wθxia+bθ ϕ ( x j a ) = W ϕ x i a + b ϕ \phi(x_{j}^{a})=W_{\phi}x_{i}^{a}+b_{\phi} ϕ(xja)=Wϕxia+bϕ为两个可学习的线性变换

    W θ W_{\theta} Wθ W ϕ W_{\phi} Wϕ是权重矩阵, b θ b_{\theta} bθ b ϕ b_{\phi} bϕ是权重向量

    (3)位置网络

    image-20210904201120496

    ​ 其中[·,·]是串联操作,W和b是可学习的权重,将串联向量投影到标量,然后是ReLU非线性。

  • 位置关系

    (1)Distance Mask

    image-20210904201047264

    ​ 其中I(·)是指标函数, d ( x i s , x j s ) d(x_{i}^{s},x_{j}^{s}) d(xis,xjs)表示两个参与者边界框的中心点之间的欧式距离,µ为超参数的距离阈值。

    ​ 意义:将距离超过某个阈值的两个参与者之间的 G i , j G_{i,j} Gi,j设置为零,这种方式得到的ARG的称为局部ARG(localized ARG)

    (2) Distance Encoding

    image-20210904202634246

    ​ 其中 ε \varepsilon ε表示使用不同波长的余弦和正弦函数,将两个参与者之间的相对距离嵌入到高维。嵌入后的特征维数为 d s d_{s} ds。然后,通过权重向量 W s W_{s} Ws b s b_{s} bs将嵌入的特征转换为标量,然后进行ReLU激活。

3.2.2. 多图

为了更充分的挖掘人物间的相互信息,可以将单参与者关系图扩展为多个图 g = ( G 1 , G 2 , ⋅ ⋅ ⋅ , G N g ) g=(G^{1},G^{2},···,G^{N_{g}}) g=(G1,G2,,GNg) N g N_{g} Ng表示图的数量)。

每个图的计算方式相同,但使用非共享权重。

构建多个关系图允许模型同时关注参与者之间不同类型的关系。因此,该模型可以对图形进行更深入的关系推理。

3.2.3 时序建模

使用递归神经网络在密集帧上聚合时间信息,通过稀疏时间采样策略在时域中合并信息。

在训练期间,从整个视频中随机抽取一组K=3帧,并在这些帧中的参与者上构建时间图。论文将结果ARG称为随机化ARG(randomized ARG)。在测试时使用滑动窗口方法,将所有窗口的活动分数平均汇总,形成全局活动预测。

优点:

​ (1)对视频帧进行随机采样可以在训练期间获得更多的多样性,并降低过度拟合的风险。

​ (2)这种稀疏采样策略以极低的成本保留时间信息,从而在合理的时间和计算资源预算下实现端到端学习。

3.3. 在关系图上推理和训练
3.3.1 推理
  • 一旦ARG构建好了,我们就可以对它们执行关系推理来识别单个动作和群体活动。这需要用到图卷积网络(Graph Convolutional Network),图卷积网络的一层结构如下:

    image-20210906084224048

    其中 G G G是图的矩阵表示; Z ( l ) Z^{(l)} Z(l)是第 l l l层结点的特征表示,且 Z ( 0 ) = X Z^{(0)}=X Z(0)=X W ( l ) W^{(l)} W(l)是特定层的可学习权重矩阵; σ ( ⋅ ) \sigma(·) σ()表示激活函数。

  • 在图卷积网络之后,论文将不同图中的同一个参与者的特征融合起来:

    image-20210906085842926

  • 最后通过求和的方式将GCN输出的相关特征与原始特征融合,形成场景表示。场景表示被馈送到两个分类器,以生成单个动作和群体活动预测。

3.3.2 训练

整个模型可以通过反向传播以端到端的方式进行训练。结合标准交叉熵损失,最终损失函数为:

image-20210906090531053

其中 L 1 L_{1} L1 L 2 L_{2} L2表示交叉熵损失; y G y^{G} yG y I y^{I} yI表示群体活动和单个动作的真实标签; y ^ G \hat{y}^{G} y^G y ^ I \hat{y}^{I} y^I表示群体活动和单个动作的预测。

第一项对应于群体活动的分类损失,第二项对应于个人动作的分类损失。权重λ用于平衡这两项任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值