读书笔记:Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition

Dynamic GCN:基于骨架的动作识别的上下文丰富的拓扑学习

Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition
 

code:暂时未公开

摘要:

图卷积网络(GCN)对基于骨骼的动作识别任务越来越感兴趣。关键在于图形结构的设计,该结构对骨架拓扑信息进行编码。在本文中,我们提出了动态GCN,其中引入了一种称为上下文编码网络(CeN)的新型卷积神经网络来自动学习骨架拓扑。特别是,当学习两个关节之间的依存关系时,其余关节的上下文特征将以全局方式合并。 CeN效果比较好并且网络比较小,可以嵌入到图形卷积层中。通过堆叠多个启用CeN的图卷积层,我们构建了Dynamic GCN。值得注意的是,作为CeN的一项优点,可为不同的输入样本以及不同深度的图形卷积层构建动态图形拓扑。此外,对三种可选的上下文建模架构进行了很好的探索,它们可以作为未来图拓扑学习研究的方向。 CeN仅为基线模型带来约7%的额外FLOP,而Dynamic GCN则比现有方法具有更好的性能,且FLOP减少了2倍至4倍。通过进一步结合静态的身体连接和运动方式(相邻帧做差),我们可以达到最佳状态NTU-RGB + D,NTU-RGB + D 120和Skeleton-Kinetics这三个大型基准的很好的性能。

 

他们将骨架数据建模为图形,并根据人体的物理联系通过邻接矩阵提取拓扑信息。但是,不同样本的骨骼关节之间的依赖性会有所不同,尤其是当它们执行不同的动作时。从固定图得出的这种拓扑信息相对较弱。最近,有一些尝试[12,21,26,36]为不同的样本构造不同的图。它们基本上是受非局部运算[2]启发的,其中使用距离度量(如内积)来测量两个任意骨架关节之间的依存度。拓扑信息在一定程度上得到了增强,识别性能得到了提高,但同时也带来了三个需要进一步改进的问题。 1)非局部方法本质上是一种局部方法,该方法在不考虑所有其他上下文关节的影响的情况下测量两个骨架关节之间的依赖性。我们认为,除了底层的两个关节之外,其余关节的上下文信息对于学习可靠而稳定的拓扑至关重要。 2)使用诸如内积之类的任意函数来计算两个关节之间的依赖关系会引入强大的先验知识,这可能不是最佳的。 3)在骨架动力系统中,基于非局部的方法会考虑每对无向关节的依赖性。由于每个关节的上下文信息是不同的,因此应定向依赖性。而且,对于不同的查询对,基于非本地方法产生的相似性可能几乎相同[3]。

 

在这项工作中,我们提出了一种称为动态GCN的混合GCN-CNN框架,如图1所示。我们旨在通过利用CNN的特征学习能力来攻击现有基于学习的骨架拓扑的弱点。具体来说,引入了一种新的卷积神经网络,称为上下文编码网络(CeN),以自动学习骨架拓扑。可以将其嵌入到图形卷积(GConv)层中,并端到端学习。与基于非本地方法相比,CeN具有以下优点。 1)CeN从全局角度全面考虑了每个关节的上下文信息。 2)CeN完全由数据驱动,不需要任何先验知识,因此更加灵活。 3)CeN将每对关节的依赖关系视为有向图,并产生有向图(非对称邻接矩阵),该图可以更准确地表示骨骼系统的动力学。 4)与其他拓扑学习算法相比,CeN非常轻巧但有效,并且可以轻松地集成到基于GCN的方法中。

值得注意的是,CeN预测每个样本以及每个GConv层都有独特的图形拓扑。 此功能导致动态图形拓扑而不是静态拓扑,从而增强了模型的表达能力。

 

对于CeN中的上下文建模,探索了各种特征聚合体系结构。 如[14 HCN]所指出的,对于二维(2D)卷积层,特征沿着通道维度全局聚集,沿着空间维度局部聚集。 骨架序列可以表示为C×T×N的张量,其中C,T和N分别表示特征,时间和关节尺寸。 在拓扑学习的上下文中,我们认为来自周围关节的上下文信息是最重要的。 为此,在拟议的CeN特征中,通过将其视为通道将其沿关节尺寸全局聚合。 消融研究表明,它优于其他两个替代方法,后者将时间或特征维视为通道。 给出了进一步的讨论,这可以指导未来关于图拓扑学习的研究。

 

构造邻接矩阵的各种方法的比较。 (a)预定义的物理邻接矩阵。(b)与物理邻接矩阵相乘或相加的可学习掩码。 (c)现有的非本地邻接矩阵,仅考虑底层的两个关节。 (d)由CeN预测的拟议动态拓扑,其中纳入了所有上下文联合的特征。

提出的CeN的体系结构。 它只由三个1×1卷积层组成。 首先采用Conv-C和Conv-T来挤压特征和时间维度。 然后将节点维数作为通道来获取全局拓扑。 特征地图排列(粉红色块)是按需应用的。 在每个卷积层之后应用批归一化和ReLU激活函数

图4:动态GConv层的管道。 从静态图(静态分支)导出的拓扑特征和CeN(动态分支)预测的图融合。 然后,附加一个TC块。

 

 3.2.3联合级别的特征聚合和空间运动模式的集合。 在以前基于GCN的方法[25,26,33]中,图中的节点数保持不变。 也就是说,给定骨架序列X∈RC×T×N,所有GConv层共享相同数量的关节N。相反,我们提出了一种非常简单的方法来逐步聚合关节水平的特征。 具体地,我们使用投影矩阵P∈RNi×Ni1来缩小关节尺寸的大小,其中Ni1=αNi,0<α1。 我们将P插入到图卷积网络的一些中间层中,使eX=XP∈RC×T×Ni1。 通过使用联合级特征聚合,可以大大降低模型的FLOP,并且几乎不影响模型的性能。

 

这里有一个投影矩阵(projection matrix ),是什么意思啊?有点不太懂。。。。。

 

 

 

这篇论文是HCN基础上提出的,CeN结构是HCN是很类似,利用CNN去提取全局特征。对于全局特征的提取,CNN还是比GCN有优势的。这篇论文有一个特别新颖的点就是CeN会在GCN的每一层都学习一个动态的、唯一的邻接矩阵。

才刚开始看,做一下记录,希望作者能公开代码。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值