【论文学习】2s-AGCN:Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition

Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition

CVPR2019

基于骨架的动作识别的两流自适应图卷积网络


在基于骨骼的动作识别中,将人体骨骼建模为时空图的GCN取得了卓越的性能。但是,在现有的基于GCN的方法中,图的拓扑是手动设置的,并且固定在所有图层和输入样本上。另外,骨骼数据的二阶信息(骨骼的长度和方向)对于动作识别自然是更有益和更具区分性的,在现有方法中很少进行研究。

文章提出了两流自适应图卷积网络two-stream adaptive graph convolutional network (2s-AGCN)。图的拓扑可以通过BP算法以端到端的方式统一学习或单独学习。这种数据驱动的方法增加了用于图形构建的模型的灵活性,并为适应各种数据样本带来了更多的通用性。此外,提出了一种用于同时对一阶信息和二阶信息进行建模的双流框架,这在识别精度上显示出显着的提高。

将骨架数据表示为矢量序列或2D网格无法完全表达相关关节之间的依赖性。骨骼在非欧几里得空间中自然地以图的形式构造,其中关节为顶点,而它们在人体中的自然连接为边缘。先前的方法无法利用骨架数据的图结构,并且很难推广到具有任意形式的骨架。近年来,图卷积网络(GCN)将图像到图的卷积泛化,应用GCN对骨架数据进行建模,基于人体关节的自然连接构造一个空间图,并在连续帧中添加相应关节之间的时间边。提出了一种基于距离的采样函数,用于构造图卷积层,然后将其用作构建最终时空图卷积网络(ST-GCN)的基本模块。

ST-GCN图形构建过程中三个缺点:

  1. 使用的骨架图是启发式预定义的,仅表示人体物理结构,对动作识别不是最佳,例如读书和拍手,两只手的关系很重要,但是ST-GCN预定义的人体图中彼此距离很远,很难捕获两只手的关系;
  2. GCN结构是分层的,不同的层包含多层语义信息,但是ST-GCN应用的图拓扑结构在所有层都是固定的,缺乏建模所有层中包含多级语义信息的灵活性和能力;
  3. 对于所有不同动作类别的样本,固定的图结构不是最佳的,图结构应与数据相关。

ST-GCN中的另一个值得注意的问题是,**附加到每个顶点的特征向量仅包含关节的2D或3D坐标,可以将其视为骨骼数据的一阶信息。但是没有利用表示两个关节之间的骨骼特征的二阶信息。**通常,骨骼的长度和方向对于动作识别自然会提供更多的信息和判别力。为了利用骨骼数据的二阶信息,将骨骼的长度和方向表示为从其源关节指向目标关节的向量。与一阶信息相似,向量被馈入到自适应图卷积网络顶部,以指示动作标签。此外,提出了一种双流框架以融合一阶和二阶信息以进一步提高性能。

  1. 提出了一种自适应图卷积网络,以端到端的方式自适应地学习不同GCN层和骨架样本的图拓扑来适应动作识别任务和GCN的层次结构。它参数化了两种类型的图,它们的结构与模型的卷积参数一起被训练和更新。一种类型是全局图,它代表所有数据的通用模式。另一种类型是单个图形,它代表每个数据的唯一模式。两种图形都针对不同的层分别进行了优化,从而可以更好地拟合模型的层次结构。这种数据驱动的方法增加了用于图形构建的模型的灵活性,并为适应各种数据样本带来了更多的通用性。
  2. 框架数据的二阶信息被明确地表示出来,并通过两流框架与一阶信息相结合,带来了显着的改进。

related work

skeleton-based action recognition:

  • 基于手工
  • 基于RNN:将骨架数据建模为坐标向量的序列,每个坐标向量
  • 基于CNN:基于手动设计的转换规则将骨架数据建模为伪图像。基于CNN的方法通常比基于RNN的方法更受欢迎,因为与RNN相比,CNN具有更好的可并行性并且更易于训练。

GCN:

  • 空间透视:直接在图顶点及其邻居上执行卷积滤波器,然后根据手动设计的规则对其进行提取和归一化。
  • 光谱透视:利用图拉普拉斯矩阵的特征值和特征向量,借助图傅里叶变换在频域中执行图卷积,该傅里叶变换不需要在每个卷积步骤。

在空间维度,顶点 v i v_i vi的图卷积运算: f o u t ( v i ) = ∑ v j ∈ B i 1 Z i j f i n ( v j ) ⋅ w ( l i ( v j ) ) f_{out}(v_i)=\sum_{v_j\in{\mathcal B}_i}\frac{1}{Z_{ij}}f_{in}(v_j)·w(l_i(v_j)) fout(vi)=vjBiZij1fin(vj)w(li(vj))(Eq1), f f f表示特征图, v v v表示图形的顶点, B i {\mathcal B}_i Bi表示 v i v_i vi的采样区域,该区域定义为目标顶点( v i v_i vi)的1-距离邻接点( v j v_j v

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值