人体姿态2019（四）SemGCN——Semantic Graph Convolutional Networks for 3D Human Pose Regression

最新推荐文章于 2025-03-23 11:05:44 发布

Raywit

最新推荐文章于 2025-03-23 11:05:44 发布

阅读量8.5k

点赞数 2

分类专栏：图像处理

本文链接：https://blog.csdn.net/qq_40520596/article/details/107372566

版权

图像处理专栏收录该内容

32 篇文章

订阅专栏

《Semantic Graph Convolutional Networks for 3D Human Pose Regression》论文解读

Abstract
1. Introduction
2. Related work
3. Semantic Graph Convolutional Networks
4. 3D Human Pose Regression
- 4.1. Perceptual Feature Pooling
- 4.2. Loss Function

在这里插入图片描述
原文：Semantic Graph Convolutional Networks for 3D Human Pose Regression
收录：CVPR2019
代码：Pytorch

Abstract

用于3D回归的图卷积网络(GCN)的问题：目前的GCNs算法存在一些限制，即卷积滤波器感受野小以及每个节点共享变换矩阵。

为解决上面限制，本文提出 SemGCN，一种新的神经网络结构，用来处理 图结构数据 的回归任务。

其原理则是：SemGCN学会捕获语义信息，如局部和全局节点关系，这些信息不是明确表示在图中，这些语义关系可以通过GT值进行端到端训练来学习，不需要额外的监督或自定规则，最后进行全面的研究来验证SemGCN，结果表明SemGCN在使用90%的参数的情况下具有更好的性能。

1. Introduction

CNNs目前成功解决图像分类、目标检测以及生成等经典CV问题，其中输入图像是规则的网格状结构（例如size = H×W）。然而现实中的许多任务，例如分子结构、社交网络和3D网格，通常都是不规则的结构，而CNNs在这方面受限。

为解决这一限制，开始引入 图卷积网络(GCNs)，但是，却有以下两个局限性，使得GCNs不能直接应用于回归问题。① 为解决图节点可能具有多个邻域的问题，卷积滤波器对所有节点共享相同的权值矩阵，CNNs则不是这样；② GCNs将滤波器限制在每个节点的一步邻域内运行，那么卷积核的感受野被限制为1，这当网络加深时会严重影响信息交换的效率。

一波未平一波又起，为解决上面所有限制，本文提出 SemGCN。在给定图中，研究学习语义信息的编码，例如局部和全局节点关系。使用SemGCN来实现2D到3D人体位姿回归。将一个2D人体姿态(或可选的相关图像)作为输入，最后预测3D关节在特定坐标空间中的位置。由于2D和3D姿势都可以用2D或3D坐标自然地表示，那么SemGCN可以显式地利用它们的空间关系。

最后本文方法的有效性通过严格**消融研究(ablation study)**的综合评估以及与当前先进方法比较来验证。在Human3.6M上测试，只使用2D关节坐标作为输入，并且使用90%的参数。与此同时，还展示了SemGCN的可视化结果，定性地证明方法的有效性。

主要贡献：

提出了一种改进的图卷积操作——语义图卷积(SemGConv)，它来源于CNNs，其关键思想是学习图中隐含的先验边的信道加权，然后将其与核矩阵(kernel matrices)相结合。显著提高图卷积的能力；
引入SemGCN，其中SemGConv和非局部层交错。该体系结构捕获节点之间的本地和全局关系；
提出端到端的学习框架，表明SemGCN中还可以加入外部信息，如图像内容，进一步提高3D人体位姿回归的性能。

2. Related work

Graph convolutional networks

将神经网络应用到输入为 类图结构(graph-like structures) 是深度学习一个重要课题。对于有向无环图的数据尝试使用 递归神经网络(RNN) 来解决；之后GNN被引入后，GNN则成为处理任意图数据更常见的解决方案；再之后提出GCN，该网络主要有两种主流方法：① 基于光谱的观点(spectral perspective)；② 基于空间的观点(spatial perspective)。本文采用第二种方法，将卷积滤波器直接应用于图节点及其邻居节点上。

基于光谱的观点(spectral perspective)：图卷积中的位置信息被看做是以光谱分析的形式；
基于空间的观点(spatial perspective)：卷积核直接被应用在图节点和邻居节点上。

3D pose estimation

Lee和Chen等人首先从相应的2D投影来推断3D关节。后来的方法要么利用最近邻来精炼推断的位姿，要么提取hand-craft特征来进行后期回归。利用深度神经网络寻找2D到3D关节位置映射的研究越来越多。有些是直接从图像中预测3D位姿，还有一些3D姿态回归方法要么将2D热图与体积表示相结合，要么估计成对距离矩阵或者图像线索。

3. Semantic Graph Convolutional Networks

3.1. ResGCN: A Baseline

notation	meaning
G	{V, E}
V	K个节点
K	总节点数
E	边
$i$	第 $i$ 个节点
$j\in N(i)$	第 $i$ 个节点的第 $j$ 个邻节点
$\vec{x_{i}}^{(l)}\in R^{D_{l}}$	节点 $i$ 第 $l$ 次卷积之前的表示
$\vec{x_{i}}^{(l+1)}\in R^{D_{l+1}}$	节点 $i$ 第 $l$ 次卷积之后的表示
$X^{(l)}\in R^{D_{l}\times K}$	总节点矩阵
$W\in R^{D_{l+1}\times D_{l}}$	参数矩阵
$\tilde{A}$	邻接矩阵A的对称标准化

在这里插入图片描述
Wang等人利用残差连接(residual connections)对基于等式(1)的深度图网络 (deep graph network)进行重新修改，来学习图像特征与3D顶点之间的映射，本文将ResGCN作为基准网络(baseline)。

等式(1)有两大缺点。首先，为了在任意拓扑结构的节点上运用卷积，必须对所有边共享核矩阵W，相邻节点或图中的内部结构的关系没有得到很好的利用。其次，以前的工作只收集每个节点的一阶邻居的特性，这使得感受野被固定为1。

3.2. Semantic Graph Convolutions

在这里插入图片描述

M：可学的加权矩阵， $M\in R^{K\times K}$ ；
$\rho_{i}$ ：Softmax非线性；
$\odot$ ：逻辑同或运算， $\oplus$ 则是异或。

如Fig.1(d)所示，还可以对等式2进一步扩展：
在这里插入图片描述

$M_{d}\in R^{K\times K}$ ：第d通道的权值矩阵 (如Fig.1(d)：对输出节点的每个通道d采用不同的权值矩阵)；
$\vec{w} _{d}$ ：变换矩阵W的第d行。
$\parallel$ ：通道串联

3.3. Network Architecture

在这里插入图片描述

$W_{x}$ ：初始化为0；
$f(x_{i},x_{j})$ ：计算节点 $i$ 和周边节点 $j$ 的afﬁnity(关系密切程度)；

实际上，对于等式(4)可以通过 非局部层 (non-local layers) 来实现；基于等式(3)和(4)，本文提出新的网络结构用于回归任务——SemGCN，网络中的SemGConv和非局部层交错来捕获节点之间的局部和全局语义关系，如图2所示：

在这里插入图片描述
上图在网络开始时，先使用一个SemGConv将输入映射到潜在空间(latent space)；网络最后还有一个附加的SemGConv，用于将编码后的特性投影回输出空间。注意：若将SemGConv替换为vanilla graph convolutions，并且所有非局部层都删除，那么SemGCN变为ResGCN。

4. 3D Human Pose Regression

在这里插入图片描述
在一个预定义的摄像机坐标系统中，目的是学习一个回归函数 $F^{*}$ ，使得在内含N个人体姿态的数据集上的损失最小化。

$P\in R^{K\times 2}$ ：2D关节点；
$J\in R^{K\times 3}$ ：相对应的3D关节点

本文认为图像内容能够为解决模棱两可的情况提供重要的线索，因此，再将图像内容作为附加约束进一步扩展等式(5)，如下式：

在这里插入图片描述

$I_{i}$ ：为包含2D关节 $P_{i}$ 对齐后的人体姿态图像。在实际中，已知摄像机参数或者通过2D关节检测器，P可以作为2D GT值。

在这里插入图片描述
整个框架如图3所示：由两个神经网络组成。先输入一幅图像，利用深度卷积网络进行2D关节预测；同时，它也是一个骨干网，从它的中间层汇集图像特征。由于2D和3D的关节坐标可以编码到人体骨骼中，因此提出的SemGCN根据2D姿态和感知特征来预测3D坐标，注意，当不考虑图像特性时，我们的框架采用等式(5)，SemGCN用于有效地编码从2D到3D姿态的映射，并且在合并图像内容时性能可以进一步提高。

4.1. Perceptual Feature Pooling

ResNet 和 Hourglass 广泛应用在传统的人体位姿检测中，本文采用 ResNet 作为骨干网络( backbone )，因为它的中间层提供图像的层次特征，这在CV中，如目标检测和分割中很有用。给定输入图像中每个2D关节的坐标，在ResNet中汇集来自多个层次的特征，特别是，通过使用RoIAlign将从conv_1层提取的特征连接到conv_4层。然后将感知特性与2D坐标连接起来，并输入到SemGCN中。注意：由于输入图像中的所有关节具有相同的尺度，因此我们将特征集中在一个以每个关节为中心、大小固定的方形边界盒中，边长大小即骨骼的平均骨骼长度。