姿态估计Top-down系列:Peeking into occluded joints: A novel framework for crowd pose estimation

原文:Peeking into occluded joints: A novel framework for crowd pose estimation
代码:OPEC-Net


Abstract

虽然遮挡在自然界中广泛存在,并且仍然是姿态估计的一个基本挑战,但现有的基于热图的方法在遮挡问题上存在严重的退化。它们固有的问题是,直接根据图像信息定位关节点;然而,不可见的关节点却缺乏图像信息。与直接定位不同的是,文章从推理的角度对不可见关节进行了估计,提出了一个图像引导的渐进式 GCN 模块,该模块提供了对图像上下文和姿态结构的全面理解。此外,现有的基准数据集对遮挡问题的评估很有限。因此,文章深入研究了这一问题,并提出了一种新的网络结构 OPEC-Net 和一个包含 9k 标注图像的全新遮挡姿态数据集 OCPose。对基准进行了广泛的定量和定性评估,表明 OPEC-Net 相比最近的领先工作取得了显著的改进。值得注意的是,文章的 OCPose 是就相邻实例之间的平均IOU而言最复杂的遮挡数据集。源代码和OCPose数据集将开源。


Introduction

在这里插入图片描述


Related Works


OPEC-Net: Occluded Pose Estimation and Correction

现有的姿态估计方法在可见关节上取得了显著的效果,但在不可见的关节上的姿态估计结果却非常不准确。这主要是因为从热图中定位不可见的关节非常具有挑战性,因为它们被遮挡了,并且缺乏视觉信息。为了改进这一缺点,文章引入了一种新的框架,它从图像的上下文和姿态结构线索中推断出看不见的关节

考虑到这一点,我们从基于热图的模块中生成初始姿态 initial pose,并将其输入到基于GCN的关节校正模块中,以学习它们的精确位置。在校正阶段,提出了一种图像导引GCN网络 IGP-GCN 和级联特征自适应模块 Cascaded Feature Adaption。IGP-GCN 网络综合利用人体结构和图像上下文对估计结果进行优化。通过以渐进的方式学习位移,它提供了一种稳定的方式来获得更准确的结果。

框架中的热图 heatmap 和坐标 coordinate 模块实际上是相互依赖的。因为热图推理网络 IGP-GCN 模块具有更准确的姿势初始化,也有助于在进行校正之前更精确地理解局部上下文。
另一方面,基于坐标的 IGP-GCN 还解决了热图模块的局限性:由于图像大小的限制,热图表示通常 heatmap representation 会导致关节估计的量化误差(一般方法是:取图像上响应值最高的位置作为关节点所在的位置,关节点的精度受限于heatmap的大小)。我们的 IGP-GCN 设计通过将热图转换为坐标表示来解决此问题。总体框架和建议的OPEC-NET模块如 Fig 2. 所示。

Initial Pose Estimation from Heatmap-based modules

在此阶段,使用AlphaPose+[13]作为基本模块来生成可见关节的热图。这是一种 top-down 的方法,它首先检测每个人的边界框,然后执行实例级别的单人姿势估计。我们在下面描述单人姿势估计的过程。

首先,基础模块的解码器的三层生成对应的三个不同细节层次的特征图:coarse feature map F 1 F1 F1, middle feature map F 2 F2 F2 和 fine feature map F 3 F3 F3。基础模块输出的热图对于可见的关节具有很高的置信度。从热图 H 估计的姿势可以表示为 P,它包含每个关节的估计结果:

{ < x 1 , y 1 , c 1 > , < x 2 , y 2 , c 2 > , . . . , < x k , y k , c k > } \{ <x^1, y^1, c^1 >, <x^2, y^2, c^2 >,...,<x^k, y^k, c^k >\} {<x1,y1,c1>,<x2,y2,c2>,...,<xk,yk,ck>}

其中 x j x_j xj y j y_j yj是第 j j j 个关节的位置, c j c_j cj 是置信度分数, k k k 是骨架中的关节数。

GCN-based Joints Correction

人类可以很容易的推断出被遮挡的姿势,这主要是因为我们具有丰富的隐含身体结构和姿势属性的先验知识。更具体地说,一个自然的人体姿势受到环境和人体属性的高度限制,例如人体的生物力学结构和环境中的含义。有鉴于此,我们提出了一种图像引导图校正网络 Image-Guided graph network,该网络根据上述模块生成的初始姿态 initial pose,并根据关节间的隐含关系对估计结果进行调整。

Heatmap representation to Coordinate representation.

首先,我们根据前两个阶段的热图生成GCN网络的初始姿势 initial pose。在获得初始姿势时需要考虑的一个重要因素是,为了端到端的训练目的,从热图到坐标表示的转换需要是不同的,因此不能直接从通过在heatmap上搜索最大值位置作为 P。最后,我们发现一个坐标初始位姿 J ^ i \hat{J}_i J^i可以是从热图生成并通过积分回归方法估计。

具体来说,热图经过一个 Softmax 层,把所有值归一化值一个概率值[0,1]。之后,一个积分操作作用在概率图上来对所有值求和并估计关节点的位置。
J ^ i k = ∫ p ∈ A p ⋅ H k ( p ) \hat{J}^k_i = \int _{p \in A} p \cdot H_k(p) J^ik=pApHk(p)

其中 J ^ i k \hat{J}^k_i J^ik 是第k个关键的位置估计,我们使用A来表示概率图的区域,用 H k ( p ) H_k(p) Hk(p)来表示p点的概率值。因此,以一个热土矩阵都包含了生成初始姿态 P i n i t P_{init} Pinit 的信息。

Graph Formulation.

人体骨骼具有自然的分层图形结构。以往关于MPPE的研究仅仅是通过原始的图匹配策略来利用这些信息。我们认为不同关节之间的隐含关系有助于指导位置估计。因此,我们直接构建了一个图 G = ( V , E ) G = (V,E) G=(V,E)来建模人体姿态的N个关节点。 V V V 是图G中顶点的集合,可表示为 V = { v i ∣ i = 1 , 2 , . . . , N } V = \{ v_i |i= 1,2,...,N\} V={vii=1,2,...,N}. E = { v i v j ∣ i f   i a n d   j   a r e   c o n n e c t e d   i n   t h e   h u m a n   b o d y } E=\{v_iv_j| if \ i and\ j \ are\ connected\ in\ the \ human\ body\} E={vivjif iand j are connected in the human body} 是代表人体肢体的边。图G的邻接矩阵 A = { a i j } A = \{a_{ij}\} A={aij},当 v i v_i vi v j v_j vj 在图G中连接或者 i = j i=j i=j a i j = 1 a_{ij}=1 aij=1,否则 = 0 =0 =0.

对于每个节点,
For every node, the input feature Gji is the joint estimation result < xji , yij , cji >, where i is ith pose and j is the jth joint of the skeleton. We denote Gi ∈ RL×N as the input feature of the ith pose in the training set, where L is the feature dimension.

Image-Guided Progressive GCN Network.

Cascaded Feature Adaption (CFA).

CoupleGraph

Loss Functions

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值