context aware graph convlution for skeleton-based action recognition

上下文感知图卷积在骨骼动作识别中的应用

目录

上下文感知图卷积在骨骼动作识别中的应用

CA-GCN简介

方法

Light CA-GCN

Context Aware Convolution

Advanced CA-GCN

Context aware graph convolution for edge feature based GCNs


 


本文主要是基于对论文:context aware graph convlution for skeleton-based action recognition的理论部分讲解。

CA-GCN简介

传统的图卷积是一个局部的操作,它不能完全研究非局部关节的一些很重要的特征。比如说,打字和拍手等动作需要两只手的配合,而在人体骨骼图中,这两只手之间的距离是很远的。所以,传统的图卷积很难做到同时注意两只手的动作特征 。于是,使用多个图卷积层堆叠在一起,以增加接受野;但是,这带来了计算效率低和优化困难等一系列问题;并且这种方法也不能很好的把两只手的动作结合在一起。

在这篇文章中作者提出了一种基于上下文感知图卷积(CA-GCN)方法来解决这个问题。除了计算局部图卷积,CA-GCN通过整合所有其他顶点的信息来考虑每个顶点的上下文信息。因此,关节间的长程依赖关系自然地集成在上下文信息中,从而消除了多层图卷积的叠加以扩大接受野的需要,极大地简化了网络。因此,无需叠加多个GCN层,就可以很明显地捕获关节之间的长范围依赖关系。换句话说,CA-GCN以更少的参数需求(实验中减少了2/3的网络深度)就实现了传统GCN同样的表现能力。除此以外,作者还提出了一个进一步升级的版本模型,其使用更多的抽象表征关系来衡量标准和上下文计算。

方法

在本文中作者用G=(V,E)来表示一个图,其中,V=\left \{ v_{i}|i=1,2,...,N_{v} \right \},包含N_{v}个顶点,E=\left \{ e_{ij}|v_{i}\rightarrow v_{j} \right \}表示顶点之间的边。在第l层,每个顶点v_{i}对应一个特征向量z_{i}^{l}\in R^{d_{l}},和相应的特征图\left [ z_{1}^{l} ,...,z_{i}^{l},...,z_{N}^{l}\right ],用H^{l}\in R^{N_{v}\times d_{l}}表示;每一条边e_{ij}也对应一个特征向量e_{ij}^{l}\in R^{d_{l}},相应的特征图用H_{e}^{l}\in R^{N_{v}\times d_{l}}表示。此外,每个图都对应一个邻接矩阵A\in \mathbb{R}^{N_{v}\times N_{v}}A_{ij}\in \left \{ 0,1 \right \}表示v_{i}v_{j}是否存在边。

Light CA-GCN

为了聚合整个图中的顶点以获取全局上下文信息,作者首先设计了三个不同的关联函数来度量当前中心顶点与所有其他顶点之间的关联得分。具体函数形式如下:

(i) Inner product:Rele(z_{i}^{l},z_{j}^{l})=(z_{i}^{l})^{T}\cdot z_{j}^{l}

(ii) Bi-linear form:Rele(z_{i}^{l},z_{j}^{l})=(z_{i}^{l})^{T}W_{b}^{l} z_{j}^{l}

(iii) Trainable relevance score:\left \{ r_{ij}^{l}|v_{i},v_{j}\in V \right \}

 这三种函数都具有不同的特征,(iii)是灵活性最好的,在大多数实验中表现得最好,但是只适用于固定的图结构,其他两个不依赖于固定的图结构,训练后的模型可以在不同的图结构数据集之间转换;(ii)的性能优于(i),但是(i)的优点是不会产生额外的训练负担,比其他两种函数训练更高效。

利用(iii),在第l层中,根据每个顶点的相关性,将图中所有顶点的特征相加,生成每个顶点v_{i}的Context term c_{i}^{l},如下:

其中,W_{c}^{l}\in \mathbb{R}^{d_{l}\times d_{l}^{c}}是可训练的矩阵,用来转换Context term的维度;b_{c}^{l}\in \mathbb{R}^{d_{l}^{c}}表示可训练的偏置向量,可以使网络收敛的更快;\sigma是一个非线性函数,通常可以理解为非线性激活函数。

对于Trainable relevance score这种情况来说,应该用r_{ij}^{l}来代替Rele(z_{i}^{l},z_{j}^{l});每一个顶点都要使用softmax激活函数。作者用第l层N个顶点的连接\left [ c_{1}^{l},...,c_{i}^{l},...,c_{N}^{l} \right ]来表示context map C^{l}\in \mathbb{R}^{N\times d_{l}^{c}}

Context Aware Convolution

在得到context map C^{l}\in \mathbb{R}^{N\times d_{l}^{c}}之后,作者使用聚合函数Inte(\cdot ,\cdot )来聚合上下文信息,以及将上述顶点的特征图H^{l}转换成上下文感知的特征图H_{c}^{l},这样,在进行卷积时,就整合了全局上下文信息。整个处理过程可以表述为:

其中,W是一个可训练的矩阵,用来改变H_{c}^{l}的维数;A\tilde{~}是邻接矩阵,A\tilde{~}=A+I_{N_{v}},该邻接矩阵添加了自身连接,以便于在进行卷积的时候包含自身的特征。I_{N_{v}}\in \mathbb{R}^{N_{v}\times N_{v}}是一个单位矩阵。D\in \mathbb{R}^{N_{v}\times N_{v}}是度矩阵,表示每个顶点和其相邻顶点的连接边数,如下:

虽然实验表明,我们的轻量级模型足以显著改进经典的GCN模型,但仍有几个方面可以改进。

第一,采用inner productbi-linear relevance函数,直接利用特征向量计算两个顶点之间的特征向量,不作任何修改,缺乏灵活性,特别是inner produc函数,它完全决定了特征向量的相关性。在实验中,第一层的顶点特征向量是关节的空间坐标。因此,即使两个关节在一个动作中高度相关,如果它们的坐标向量几乎是正交的,它们的相关性接近于零,这显然是不合理的。当计算v_{i}的context时,v_{i}对于context的作用和其他被聚合的顶点的作用是不同的,所以顶点之间的相关性衡量标准应该是非对称的。这种考虑是专门针对inner product或bi-linear relevance函数。Trainable relevance score不依赖于节点特征,直接通过最小化分类损失找到最优关联性。

第二,通过对图中顶点的特征向量求和来计算context term,这意味着同一组特征向量同时参与卷积和context的计算。但是,卷积和context计算所需的表示可能不一样,所以最适合卷积计算的向量可能也不是context计算的最佳表示。因此,每个顶点可能需要两个单独的计算context和卷积表示。

考虑到这两点,作者提出了一个更详细的模型,即Advanced CA-GCN。

Advanced CA-GCN

首先,对于上述第个问题,作者提出了内积函数和双线性相关函数的两种高级表示。在Context Aware的卷积过程中,我们将计算context的中心顶点表示为一个receiver,并将顶点聚集为senders。为了增加关联性更多的灵活性和不对称性,作者首先对每个顶点提取两个更高层次的向量R(z_{i}^{l})\in \mathbb{R}^{d_{R}}S(z_{i}^{l})\in \mathbb{R}^{d_{S}},如下式:

其中,W_{R}^{l}\in \mathbb{R}^{d_{R}\times d_{l}}W_{S}^{l}\in \mathbb{R}^{d_{S}\times d_{l}}表示可训练的矩阵,b_{R}^{l}\in \mathbb{R}^{d_{R}}b_{S}^{l}\in \mathbb{R}^{d_{S}}表示偏置量。将第l层的两个顶点v_{i}v_{j}相关性函数重新表述为Rele(R(z_{i}^{l}),R(z_{j}^{l})),相关性函数Rele(\cdot ,\cdot )保持不变,并引入非对称性法则Rele(R(z_{i}^{l}),R(z_{j}^{l}))\neq Rele(R(z_{j}^{l}),R(z_{i}^{l}))。因此,当receiver和senders确定时,他们之间的相关性也随之确定。此外,随着R(·)和S(·)产生更高层次的表示,相关性的衡量增加了更多的灵活性。

对于第二个问题,作者通过生成了另一种专门用于context term计算的表示来解决此问题,可表述为:

综上,context term计算可以重写为:

其中,由于函数G(·)已经将特征向量的通道维数转换为所需的d_{c},因此这里没有W_{c}^{l}来转换维数;对于Trainable relevance score,使用r_{ik}来代替Rele(R(z_{i}^{l}),S(z_{k}^{l}))

由R(·)、S(·)生成的更高层次表示,和与直接使用特征向量相比,G(·)增加了灵活性。关联性衡量中引入的不对称性使得当一个顶点作为接收点或发送点时,可以用不同的方式来考虑它。

Context aware graph convolution for edge feature based GCNs

大多数GCNs是基于顶点的,并在顶点上用表示连接的边执行卷积。在这一部分中,作者介绍了如何将他们的方法也应用于基于边或同时基于顶点和边的GCNs。通常,将context计算重新定义为:

其中,x可以是一个顶点,也可以是一条边,可以表示为任意一个顶点或边,或两者生成context term。W_{x,z_{k}^{l}}W_{x,e_{ij}^{l}}分别是顶点特征和边特征的权重,这意味着可以选择通过顶点特征或边特征生成context term,也可以同时通过顶点特征或边特征生成context term。

具体实验细节和相关对比实验以及实验结果可以参考原文。

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值