context aware graph convlution for skeleton-based action recognition

最新推荐文章于 2023-10-15 15:25:12 发布

Z_Kyrin

最新推荐文章于 2023-10-15 15:25:12 发布

阅读量564

点赞数 3

分类专栏：图神将网络图卷积神经网络文章标签：深度学习机器学习视觉检测神经网络

原文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhang_Context_Aware_Graph_Convolution_for_Skeleton-Based_Action_Recognition_CVPR_2020_paper.pdf

版权

图神将网络同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

图卷积神经网络

1 篇文章 0 订阅

订阅专栏

上下文感知图卷积在骨骼动作识别中的应用

CA-GCN简介

方法

Light CA-GCN

Context Aware Convolution

Advanced CA-GCN

Context aware graph convolution for edge feature based GCNs

本文主要是基于对论文：context aware graph convlution for skeleton-based action recognition的理论部分讲解。

CA-GCN简介

传统的图卷积是一个局部的操作，它不能完全研究非局部关节的一些很重要的特征。比如说，打字和拍手等动作需要两只手的配合，而在人体骨骼图中，这两只手之间的距离是很远的。所以，传统的图卷积很难做到同时注意两只手的动作特征。于是，使用多个图卷积层堆叠在一起，以增加接受野；但是，这带来了计算效率低和优化困难等一系列问题；并且这种方法也不能很好的把两只手的动作结合在一起。

在这篇文章中作者提出了一种基于上下文感知图卷积（CA-GCN）方法来解决这个问题。除了计算局部图卷积，CA-GCN通过整合所有其他顶点的信息来考虑每个顶点的上下文信息。因此，关节间的长程依赖关系自然地集成在上下文信息中，从而消除了多层图卷积的叠加以扩大接受野的需要，极大地简化了网络。因此，无需叠加多个GCN层，就可以很明显地捕获关节之间的长范围依赖关系。换句话说，CA-GCN以更少的参数需求（实验中减少了2/3的网络深度）就实现了传统GCN同样的表现能力。除此以外，作者还提出了一个进一步升级的版本模型，其使用更多的抽象表征关系来衡量标准和上下文计算。

方法

在本文中作者用 $G=(V,E)$ 来表示一个图，其中， $V=\left \{ v_{i}|i=1,2,...,N_{v} \right \}$ ，包含 $N_{v}$ 个顶点， $E=\left \{ e_{ij}|v_{i}\rightarrow v_{j} \right \}$ 表示顶点之间的边。在第 $l$ 层，每个顶点 $v_{i}$ 对应一个特征向量 $z_{i}^{l}\in R^{d_{l}}$ ,和相应的特征图 $\left [ z_{1}^{l} ,...,z_{i}^{l},...,z_{N}^{l}\right ]$ ，用 $H^{l}\in R^{N_{v}\times d_{l}}$ 表示；每一条边 $e_{ij}$ 也对应一个特征向量 $e_{ij}^{l}\in R^{d_{l}}$ ，相应的特征图用 $H_{e}^{l}\in R^{N_{v}\times d_{l}}$ 表示。此外，每个图都对应一个邻接矩阵 $A\in \mathbb{R}^{N_{v}\times N_{v}}$ ， $A_{ij}\in \left \{ 0,1 \right \}$ 表示 $v_{i}$ 和 $v_{j}$ 是否存在边。

Light CA-GCN

为了聚合整个图中的顶点以获取全局上下文信息，作者首先设计了三个不同的关联函数来度量当前中心顶点与所有其他顶点之间的关联得分。具体函数形式如下：

(i) Inner product: $Rele(z_{i}^{l},z_{j}^{l})=(z_{i}^{l})^{T}\cdot z_{j}^{l}$

(ii) Bi-linear form: $Rele(z_{i}^{l},z_{j}^{l})=(z_{i}^{l})^{T}W_{b}^{l} z_{j}^{l}$

(iii) Trainable relevance score: $\left \{ r_{ij}^{l}|v_{i},v_{j}\in V \right \}$

这三种函数都具有不同的特征，(iii)是灵活性最好的，在大多数实验中表现得最好，但是只适用于固定的图结构，其他两个不依赖于固定的图结构，训练后的模型可以在不同的图结构数据集之间转换；(ii)的性能优于(i)，但是(i)的优点是不会产生额外的训练负担，比其他两种函数训练更高效。

利用(iii)，在第 $l$ 层中，根据每个顶点的相关性，将图中所有顶点的特征相加，生成每个顶点 $v_{i}$ 的Context term $c_{i}^{l}$ ，如下：

其中， $W_{c}^{l}\in \mathbb{R}^{d_{l}\times d_{l}^{c}}$ 是可训练的矩阵，用来转换Context term的维度； $b_{c}^{l}\in \mathbb{R}^{d_{l}^{c}}$ 表示可训练的偏置向量，可以使网络收敛的更快； $\sigma$ 是一个非线性函数，通常可以理解为非线性激活函数。

对于Trainable relevance score这种情况来说，应该用 $r_{ij}^{l}$ 来代替 $Rele(z_{i}^{l},z_{j}^{l})$ ；每一个顶点都要使用softmax激活函数。作者用第 $l$ 层N个顶点的连接 $\left [ c_{1}^{l},...,c_{i}^{l},...,c_{N}^{l} \right ]$ 来表示context map $C^{l}\in \mathbb{R}^{N\times d_{l}^{c}}$ 。

Context Aware Convolution

在得到context map $C^{l}\in \mathbb{R}^{N\times d_{l}^{c}}$ 之后，作者使用聚合函数 $Inte(\cdot ,\cdot )$ 来聚合上下文信息，以及将上述顶点的特征图 $H^{l}$ 转换成上下文感知的特征图 $H_{c}^{l}$ ，这样，在进行卷积时，就整合了全局上下文信息。整个处理过程可以表述为：

其中， $W$ 是一个可训练的矩阵，用来改变 $H_{c}^{l}$ 的维数； $A\tilde{~}$ 是邻接矩阵， $A\tilde{~}=A+I_{N_{v}}$ ,该邻接矩阵添加了自身连接，以便于在进行卷积的时候包含自身的特征。 $I_{N_{v}}\in \mathbb{R}^{N_{v}\times N_{v}}$ 是一个单位矩阵。 $D\in \mathbb{R}^{N_{v}\times N_{v}}$ 是度矩阵，表示每个顶点和其相邻顶点的连接边数，如下:

虽然实验表明，我们的轻量级模型足以显著改进经典的GCN模型，但仍有几个方面可以改进。

第一，采用inner product或bi-linear relevance函数，直接利用特征向量计算两个顶点之间的特征向量，不作任何修改，缺乏灵活性，特别是inner produc函数，它完全决定了特征向量的相关性。在实验中，第一层的顶点特征向量是关节的空间坐标。因此，即使两个关节在一个动作中高度相关，如果它们的坐标向量几乎是正交的，它们的相关性接近于零，这显然是不合理的。当计算 $v_{i}$ 的context时， $v_{i}$ 对于context的作用和其他被聚合的顶点的作用是不同的，所以顶点之间的相关性衡量标准应该是非对称的。这种考虑是专门针对inner product或bi-linear relevance函数。Trainable relevance score不依赖于节点特征，直接通过最小化分类损失找到最优关联性。

第二，通过对图中顶点的特征向量求和来计算context term，这意味着同一组特征向量同时参与卷积和context的计算。但是，卷积和context计算所需的表示可能不一样，所以最适合卷积计算的向量可能也不是context计算的最佳表示。因此，每个顶点可能需要两个单独的计算context和卷积表示。

考虑到这两点，作者提出了一个更详细的模型，即Advanced CA-GCN。

Advanced CA-GCN

首先，对于上述第个问题，作者提出了内积函数和双线性相关函数的两种高级表示。在Context Aware的卷积过程中，我们将计算context的中心顶点表示为一个receiver，并将顶点聚集为senders。为了增加关联性更多的灵活性和不对称性，作者首先对每个顶点提取两个更高层次的向量 $R(z_{i}^{l})\in \mathbb{R}^{d_{R}}$ 和 $S(z_{i}^{l})\in \mathbb{R}^{d_{S}}$ ，如下式：

其中， $W_{R}^{l}\in \mathbb{R}^{d_{R}\times d_{l}}$ 和 $W_{S}^{l}\in \mathbb{R}^{d_{S}\times d_{l}}$ 表示可训练的矩阵， $b_{R}^{l}\in \mathbb{R}^{d_{R}}$ 和 $b_{S}^{l}\in \mathbb{R}^{d_{S}}$ 表示偏置量。将第 $l$ 层的两个顶点 $v_{i}$ 和 $v_{j}$ 相关性函数重新表述为 $Rele(R(z_{i}^{l}),R(z_{j}^{l}))$ ，相关性函数 $Rele(\cdot ,\cdot )$ 保持不变，并引入非对称性法则 $Rele(R(z_{i}^{l}),R(z_{j}^{l}))\neq Rele(R(z_{j}^{l}),R(z_{i}^{l}))$ 。因此，当receiver和senders确定时，他们之间的相关性也随之确定。此外，随着R(·)和S(·)产生更高层次的表示，相关性的衡量增加了更多的灵活性。

对于第二个问题，作者通过生成了另一种专门用于context term计算的表示来解决此问题，可表述为：

综上，context term计算可以重写为：

其中，由于函数G(·)已经将特征向量的通道维数转换为所需的 $d_{c}$ ，因此这里没有 $W_{c}^{l}$ 来转换维数；对于Trainable relevance score，使用 $r_{ik}$ 来代替 $Rele(R(z_{i}^{l}),S(z_{k}^{l}))$ 。

由R(·)、S(·)生成的更高层次表示，和与直接使用特征向量相比，G(·)增加了灵活性。关联性衡量中引入的不对称性使得当一个顶点作为接收点或发送点时，可以用不同的方式来考虑它。

Context aware graph convolution for edge feature based GCNs

大多数GCNs是基于顶点的，并在顶点上用表示连接的边执行卷积。在这一部分中，作者介绍了如何将他们的方法也应用于基于边或同时基于顶点和边的GCNs。通常，将context计算重新定义为:

其中， $x$ 可以是一个顶点，也可以是一条边，可以表示为任意一个顶点或边，或两者生成context term。 $W_{x,z_{k}^{l}}$ 和 $W_{x,e_{ij}^{l}}$ 分别是顶点特征和边特征的权重，这意味着可以选择通过顶点特征或边特征生成context term，也可以同时通过顶点特征或边特征生成context term。