【论文笔记】MS-G3D:Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

CVPR2020
论文地址
代码地址
现有方法存在局限性:

  1. 多尺度算子下的无偏长期关节关系建模
  2. 用于捕捉复杂时空依赖的通畅的跨时空信息流

主要工作:

  1. 分解(disentangle)多尺度图卷积的简单方法;消除了不同邻域节点特征之间的冗余依赖关系,使强大的多尺度聚合器能够有效地捕获人体骨架上的图形广义关节关系
    新的多尺度聚合方案,通过消除较远和较近邻域间的冗余依赖关系来解决有偏差的权重问题,从而解开多尺度聚合下的特征。 产生了更强大的多尺度算子,可以建模关节之间的关系,而不用考虑它们之间的距离。
  2. 统一的时空图卷积算子G3D;信息在时空中直接流动,利用密集的跨时空边作为跳跃连接,用于在时空图中直接传播信息;一个新的统一的时空图卷积模块,可以直接建模跨时空关节依赖关系。 G3D通过引入跨越“3D”时空域的图形边作为无障碍信息流的跳过连接来做到这一点。尽管引入了额外的边,解纠缠聚合方案增强G3D的多尺度时空推理而没有受到有偏差权重问题的影响
  3. MS-G3D,强大的特征提取器,具有跨时空的多尺度感受野
    在这里插入图片描述

现有方法:

  1. 使用骨架邻接矩阵的高次幂:邻接矩阵的幂来捕获每对节点之间的路径数,且行走的长度与幂相同;邻接多项式通过使远邻可达来增加图卷积的感受野。这种方法存在有偏权问题,即无向图上环的存在意味着边权重将偏向于更靠近的节点而不是更远的节点。 在骨架图上,这意味着邻接矩阵高次幂只能低效地捕捉远处关节的信息,因为聚集的特征将由局部身体部位的关节主导。 这是限制现有多尺度聚合器可伸缩性的一个严重缺陷。
  2. 利用复杂的跨时空关节关系进行动作识别的能力。 大多数现有的方法部署的仅空间和仅时间交错的的模块,类似于分解的3D 卷积。 典型的方法是首先使用图卷积提取每个时间步长的空间关系,然后使用循环神经网络或一维卷积层建立时间动态模型。 虽然这样的分解方法可以有效的长期建模,但它阻碍了跨时空的直接信息流,无法捕获复杂的区域时空关节依赖关系。例如,“站立”动作通常是上身和下身在空间和时间上的共同运动,上身的运动(向前倾)与下身未来的运动(站立)有很强的相关性。 分解方法建模可能无法有效地捕捉到这些用来做预测的有力线索。

二、相关工作

  • GNN

    • spectral GNN
      将输入图形信号与图形傅立叶域中的一组学习滤波器进行卷积。然而,由于本征分解的要求和固定邻接的假设,在计算效率和可推广性方面仅限于新图。
    • spatial GNN
      • 选择具有邻域函数的邻居(例如,相邻节点)对每个节点执行逐层更新;
      • 将所选邻居及其本身的特征与聚合函数合并(例如均值合并);
      • 将激活的转换应用于合并的要素
  • MS-GNN:捕获来自非本地邻居的特征;

    • 使用图邻接矩阵的高阶多项式来聚合特征
    • 将邻接矩阵提高到更高的幂,并通过来自不同隐藏层的密集特征级联获得多尺度信息
    • 使用邻接矩阵的低秩近似来加快大图上的指数运算
  • skeleton-based

    • ST-GCN:将空间图卷积和交织的时间卷积一起用于时空建模
    • AS-GCN:使用邻接动力进行多尺度建模,会生成人为姿势以增强空间图卷积
    • STGR:使用逐帧注意和全局自注意机制为骨架图添加了额外的边缘
    • 2s-AGCN:引入具有自注意力的图形自适应性以及自由学习的图形残差掩码,使用具有骨架骨骼特征的两流合奏来提高性能
    • DGNN:利用了骨骼特征,通过交替的空间聚集方案同时更新了关节和骨骼特征
    • GR-GCN:在骨架图序列上每三个帧合并,并在相邻帧之间添加稀疏的边缘;部署了跨时空边缘;
      • G3D跨时空边缘遵循语义人的骨架,比稀疏的、单一大小的、更具解释性和更强大的表示形式
      • GR-GCN仅在相邻帧之间具有跨时空边缘,无法推理超出三个帧的有限时间范围
      • G3D可以同时利用不同的窗口大小和膨胀从多个时间上下文中学习,这在GR-GCN中未解决。

三、MS-G3D

  1. 前言

    • 符号:
      人体骨骼图 G = ( V , E ) {\mathcal{G}}=(\mathcal{V},\mathcal{E}) G=(V,E)

      V = { v 1 , . . . , v N } \mathcal{V}=\left \{v_{1},...,v_{N}\right \} V={ v1,...,vN}是关节的N个节点集合

      E \mathcal{E} E是邻接矩阵 A ∈ R N × N {\bf{A}}\in{\Bbb{R}^{N×N}} ARN×N(对称,因为 G \mathcal G G无向)捕获的骨骼边缘集合,如果有一条边是 v i v_i vi指向 v j v_j vj则初始 A i , j = 1 {\bf{A}}_{i,j}=1 Ai,j=1,否则0

      图序列的动作具有节点特征集 X = { x t , n ∈ R C ∣ t , n ∈ Z , 1 ≤ t ≤ T , 1 ≤ n ≤ N } {\mathcal X}=\{x_{t,n}\in{\Bbb{R}}^C|t,n\in{\Bbb Z},1\leq t\leq T,1\leq n\leq N\} X={ xt,nRCt,nZ,1tT,1nN} ,表示为特征张量 X ∈ R T × N × C {\bf{X}}\in{\Bbb{R}}^{T×N×C} XRT×N×C,其中 x t , n = X t , n , : x_{t,n}={\bf{X}}_{t,n,:} xt,n=Xt,n,: v n v_n vn在T帧上时间t的C维特征向量。

      输入动作在结构上由 A {\bf{A}} A和特征上由时间t时节点特征 X t ∈ R N × C {\bf{X}}_t\in{\Bbb R}^{N×C} XtRN×C描述。

      Θ ( l ) ∈ R C l × C l + 1 \Theta^{(l)}\in{\Bbb{R}}^{C_l×C_{l+1}} Θ(l)RCl×Cl+1表示网络第l层的可学习权重矩阵

    • GCN

      在特征向量 X {\bf{X}} X和图结构 A {\bf{A}} A的骨架输入上 X t ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 X t ( l ) Θ ( l ) ) {\bf{X}}_t^{(l+1)}=\sigma\left (\tilde{\bf{D}}^{-\frac 1 2}\tilde{\bf{A}}\tilde{\bf{D}}^{-\frac 1 2}{\bf{X}}_t^{(l)}\Theta^{(l)}\right ) Xt(l+1)=σ(D~21A~D~21Xt(l)<

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值