Semantic Graph Convolutional Networks for 3D Human Pose Regression论文的思路讲解
原文:Semantic Graph Convolutional Networks for 3D Human Pose Regression
收录:CVPR2019
代码:Pytorch
文章主要是讲解整个论文的思路部分,不是对论文的翻译。(如果有什么地方写的不对,希望及时指出)
文章主要分以下几个部分讲解:
一:论文的出发点
因为2D和3D三维人体姿态都可以表示为编码人体骨骼中关节之间关系的结构化图形,所以可以考虑使用深度GCN来对3D人体姿态估计问题进行一个处理。但是GCN不能直接用于处理回归问题,主要是两个方面的原因:
一:对每个节点共享相同的变换矩阵(W);
二:卷积核的小感受野(1);
(论文需要具备一些GCN的知识,便于理解公式)
二:论文的解决方法:
论文考虑使用深度GCN来解决问题,深度GCN的网络结构使用的是王[1]等人的网格结构作为基础。他们使用公式为:
这个公式有2个问题,也就是GCN本身的问题(一二)。
针对这2个问题,做出如下的结方法:
问题一:对每个节点共享相同的变换矩阵(W):
我们证明了学习图的边所隐含的相邻节点的语义关系对于解决共享核矩阵的局限性是有效的。
对Eq1公式进行一个改进,增加了加权矩阵M∈ R(K×K),如下
对2公式进行一个更深的扩展为(公式没有办法打出来)
(3)
wd ->是W的每一行。通过学习一组Md∈ R(K×K),从而对输出节点特征的每个通道d应用不同的加权矩阵。(跟CNN有那个味道了)(仔细的思考这个公式,思考明白了,就能对解决方法思考清楚了)
相当于,对于每一个输出的X的每一列都学习了一个Md,(x1,x2,x3...所以的通道数)。因此我们提出了SemGConv这个网络。
问题二:卷积核的小感受野(1):
卷积核的感受野为一是因为the filters to operate in one-step neighborhood around each node .
所我们需要让卷积核捕捉图中节点之间的全局和长期关系能够有效地解决这个问题。
然而,为了保持节点的行为,我们通过基于节点的表示计算节点之间的响应来限制特征更新机制,而不是学习新的卷积滤波器。因此,我们遵循非局部均值概念[5,65],并将运算定义为:
(4)
根据Eq3和Eq4,我们提出了一个SemGCN网络结构,通过SemGConv和non-locol交错去捕获全局和局部的节点的语义关系
三:论文的创新点:
创新点: 针对GCN的问题,对公式1进行了改进,提出了SemGCN,整个网络可以捕获局部和全局的节点语义关系。
四:创新点:
还在思考中。