Peeking into occluded joints: A novel framework for crowd pose estimation 论文阅读笔记

窥视遮挡关节:拥挤姿态估计新框架(2020 ECCV)

论文链接
代码链接

摘要: 自然界中普遍存在遮挡,且遮挡仍是姿态估计的一个挑战。现有的基于热图的方法会受遮挡的严重影响,因为热图法基于视觉信息直接定位关节,而不可见的关节缺乏视觉信息。与定位不同,我们提出一个图像引导的渐进式GCN(Image-Guided Progressive GCN )模块,从推理的角度估计不可见关节,该模块提供对图像上下文和姿态结构的全面理解。此外,现有的基准对遮挡的评估也十分有限。因此,我们深入研究此问题,并提出了一个新的 OPEC-Net 框架和一个新的包含遮挡姿态标注的 9k 张图像的数据集(OCPose)。对基准进行的大量定量和定性评估表明, OPEC-Net 相较 sota 方法有了显著改善。值得注意的是,对于相邻实例间的平均IoU,OCPose是最复杂的遮挡数据集。

关键词: 姿态估计,遮挡,Progressive GCN



1 Introduction

人体姿态估计是计算机视觉领域中的一个存在已久的问题。近年来,随着需要以人体姿态作为输入的应用的广泛发展,人体姿态估计也越来越受关注。尽管先进的深度学习技术在这一领域取得了重大进展,但由于难以解决的遮挡问题,人群场景的姿态估计仍极具挑战。
目前人群姿态估计的趋势模型强烈依赖热图表示来估计关节:尽管这对可见关节有效,但这些方法面对遮挡时性能仍会下降,因为不可见关节被隐藏了,无法直接定位。迄今为止,研究人员在开发热图模型和提高定位精度方面做出了艰苦的努力和复杂的补救措施。然而,遮挡问题很少被关注,也很少有人尝试解决它。如图1所示,当前的sota方法无法估计被遮挡的关节且会生成可笑的姿态。

在这里插入图片描述

图1:sota方法(crowdpose)(左)vs 我们的方法(right)。我们的方法对遮挡关节的估计更自然准确。

由于复杂的背景上下文、复杂的人体姿态和任意的遮挡形状,遮挡是姿态估计中的一个难题。为揭示隐藏关节,有必要采用全面的推理方法,而非简单的定位。 我们的 key insight 是,不可见关节与图像的上下文理解和人体姿态的结构理解密切相关。 例如,人类可以利用从动作类型和图像上下文中获得的线索,轻松推断出不可见关节的位置。因此,我们深入研究了推理不可见关节所需的线索,并提出了一种新的框架:OPEC-Net,将这些线索用于多人姿态估计。为实现这一目标,我们提出了两个阶段:① 初始姿态估计;② 基于图卷积网络GCN的姿态校正。第一阶段生成热图来生成初始姿态,随后的校正阶段通过图像引导渐进式GCN( Image-Guided Progressive GCN: IGP-GCN)模块调整从热图获得的初始姿态。
我们进行了全面的实验,并引入了一个新的数据集来评估我们的框架。虽然拥挤场景下普遍存在遮挡,但现有基准只有少数包含足够复杂的实例来专门评估遮挡问题。因此,有必要使数据集不仅包含轻度遮挡,也包含个体以复杂的方式交织在一起的重度遮挡场景,如华尔兹和摔跤。然而,该领域仍然缺乏这样的数据集,因为标注严重遮挡场景下的人体姿态十分困难,需要大量手工工作。因此,我们引入了一个新的包含更复杂遮挡姿态的数据集:Occluded Pose(OCPose)。我们手动标记 OCPose 中 9k 张图像的所有18k 个 ground truth 人体姿态。我们还与典型数据集比较了 average intersection over union(IoU)。MSCOCO 和MPII 中 IoU>30%的数据不到5%,而 OCPose包含90%的IoU>30%的数据。
总之,我们的贡献如下:

  • 据我们所知,这是从推理角度挖掘图像背景和姿态结构线索来解决遮挡关节问题的首次尝试。我们提出了一种新的框架:OPEC-Net,其性能明显优于现有的方法。
  • 设计了一种新颖的图像引导渐进式GCN 来 利用结构姿态信息和图像上下文信息在一次过程中校正姿态。
  • 我们提供了一个精心标注的,包含极具挑战性的遮挡场景的 9K 张人体姿态数据集。据我们所知,OCPose是迄今为止包含最复杂遮挡的数据集之一。OCPose 数据集将向公众发布,以促进姿态估计领域的研究。

2 Related Works

基于热图模型的姿态估计: 多人姿态估计模型(multi-person pose estimation: MPPE)可分:top-down 和 bottom-up 两类。bottom-up 法先检测关节,然后将其分配给相匹配的人。bottom-up 法的先驱工作 [Deepcut, Deepercut, PAF , Associative embedding, 25] 尝试设计不同的关节分组策略。Associative embedding 引入层叠沙漏网络来利用 tagging 热图。DeepCut 提出了一个整数线性规划(ILP)。[25] 通过学习评分函数对关节进行分组。 PAF 使用 2d 向量场部位亲和域(Part Affinity Fields: PAF)关联算法。然而,这些先前的工作在处理不可见关节点时,性能会大大降低。
top-down 法先检测场景中的所有人,然后对每个人进行单人姿态估计。大多现有的自上而下的方法侧重于提出一种更有效的人体检测器来获得更好的结果。Rmpe 是一种对冗余人体边界框更具鲁棒性的框架。Crowdpose 那篇论文针对人群场景中的关节关联问题,设计了一种全局最大关节关联算法。然而,所有这些策略都无法充分减少严重遮挡情况下产生的错误,其中一个 bounding box 会包含多个人的关节。大多主流方法都是基于热图的,在估计缺乏视觉信息的不可见关节时具有局限性,因此,我们提出了一个与这些工作完全不同的 OPEC-Net,通过推理而非定位来估计不可见关节。
用于姿态建模的图卷积网络 GCN: 人体呈现出自然的图形结构,因此一些先进工作构建图形网络来解决与人体姿态相关的问题,如动作识别、运动预测、三维姿态回归。这些工作直观地将自然的人体姿势形成图形,并在其上应用卷积层。与其他方法相比,图卷积网络在处理人体姿态建模问题时具有一个引人注目的优势:它们能更有效地捕获关节间的依赖关系。
之前的工作[24,23] 通过在图形中形成时空关系作为边,在人类运动理解方面取得了显著的进步。此外,从2D到3D的姿态回归是一个自然的图形预测问题,因此在该领域提出了一个新的SemGCN。然而,像 MPPE 这样的关键点检测问题,从未引入GCN框架。 相比之下,我们的图网络是专门为关键点检测而设计的,包含一种由图像特征引导的渐进式学习策略。

3 OPEC-Net: Occluded Pose Estimation and Correction 遮挡姿态估计与校正

现有的姿态估计方法在可见关节上取得了显著效果,但在不可见关节上产生了非常不准确的结果。这主要因为:从热图中定位不可见关节非常具有挑战性,因为它们被遮挡,缺少视觉信息。为了纠正这个缺点,我们引入了一个新的框架,从图像上下文和姿态结构线索中推断不可见关节。
考虑到这一点,我们从基于热图的模块中生成初始姿态,并用基于GCN的关节校正模块进行处理,以学习精确位置。校正阶段提出了图像引导渐进式 GCN 网络(Image-Guided Progressive GCN network: IGP-GCN)和级联特征自适应模块(Cascaded Feature Adaption module)。IGP-GCN网络利用人体结构和图像上下文来优化估计结果,以一种渐进式方式学习 displacements,它还提供了一种稳定的方法来获得更精确的结果。
我们框架中的热图和坐标模块实际上是相互依存的。 由于我们的热图推理网络,IGP-GCN模块具有更精确的姿态初始化,这也有助于在执行校正之前更精确地理解局部上下文。另一方面,基于坐标的IGP-GCN也解决了热图模块的局限:由于尺寸限制,热图表示通常会导致关节估计的量化误差。IGP-GCN设计通过将热图转换为坐标表示来解决这个问题。总体框架和OPEC-Net 模块如图2所示。
在这里插入图片描述

图2:pipeline 示意图。此图描述了单个姿态的两个估计阶段。基于GCN的姿态校正阶段包含两个模块:① 级联特征自适应(Cascaded Feature Adaptation) ② 图像引导渐进式GCN(Image-Guided Progressive GCN)。首先,采用一个基本模块生成热图。然后,采用 integral regression法( integral regression:把“取最大值”的操作改为“取期望值”,就变成了heatmap中的位置以概率做为权重,然后求积分做为关节点的位置。这种回归方法,集成了heatmap的所有位置,所以叫做集成回归(integral regression))将热图表示转换为坐标表示,坐标表示可以作为GCN网络的初始姿态。在 Image-Guided Progressive GCN 中处理来自基本模块的初始姿态和三个特征图。多尺度特征图通过 Cascaded Feature Adaptation 模块进行更新,并放入每个ResGCN Attention blocks中。ˆJ1、ˆJ2和ˆJ3是从图像特征中在相关位置(x,y)挖掘的节点特征。目标函数中考虑了 Initial Pose, Pose1, Pose2, 和 Final Pose的误差。然后,OPEC-Net 被完全训练以估计人体姿态。第3节描述了整个框架的细节。

3.1 Initial Pose Estimation from Heatmap-based modules 基于热图模块的初始姿态估计

在此阶段,AlphaPose 被用作基本模块生成可见关节的热图。这是一种自顶向下的方法,先为每个人检测一个 bounding box,然后执行实例级的人体姿态估计。我们将在下面描述实例级人体姿态估计的过程。
首先,基本模块 decoder 的三个层生成三个具有不同细化级别的特征图:粗特征图 F 1 F_1 F1、中间特征图 F 2 F_2 F2 和细特征图 F 3 F_3 F3。基本模块输出一个对可见关节具有高置信度的热图。热图中估计的姿态可表示为 P,P 包含每个关节的估计结果:
在这里插入图片描述
x j , y j x^j, y^j xj,yj 是第 j 个关节的位置, c j c^j cj 是第 j 个关节的置信度,k 是骨架中关节的个数。

3.2 GCN-based Joints Correction 基于GCN的关节矫正

由于人类对固有的身体结构和姿态特性有着丰富的先验知识,因此可以很容易地推断出被遮挡的姿态。具体而言,自然的人体姿态受环境和人体属性的高度限制,例如人体生物力学结构和环境因素。 鉴于此,我们提出了一种 Image-Guided graph network 进行校正,该网络采用上述模块生成的初始姿态,根据关节的隐式关系调整估计结果。

热图表示 to 坐标表示: 首先,我们根据前两个阶段的热图生成GCN网络的初始姿态。获取初始姿态需要考虑的一个重要因素是:从热图到坐标表示的转换需要微分来进行端到端的训练,因此不能通过从热图搜寻最大值作为 P 来获取初始姿态。最后,我们发现可以从热图生成一个坐标初始姿态 j ^ i \widehat{j}_i j i,并通过 integral regression 法进行估计
具体而言,热图传播到Softmax层,该层将值归一化为似然值[0,1]。然后,在似然图上应用积分运算来求和这些值并估计关节位置。
在这里插入图片描述
j ^ i k \widehat{j}_i^k j ik 是第k个关节的位置估计。我们使用 A 表示似然区域, H k ( p ) H_k(p) Hk(p) 表示点 p 上的似然值。因此,每个热图矩阵都包含生成一个初始姿态: P p o i n t P_{point} Ppoint 的信息。

Graph Formulation: 人体骨架具有自然的层次图结构。以往的MPPE研究仅仅通过一种原始图匹配策略来利用这些信息。我们认为,不同关节间隐含的关系有助于指导位置估计。 因此,我们构造了一个直观的图 G= (V, E) 来描述具有 N 个关节的人体姿态。 V = { v i ∣ i = 1 , 2 , . . . , N } V=\{v_i|i= 1,2, ..., N\} V={vii=1,2,...,N} 是 G 中的节点集。 E = { v i v j ∣ 如 果 i 和 j 在 人 体 内 连 接 } E=\{v_iv_j | 如果 i 和 j 在人体内连接\} E={vivjij} 代表人体肢干的边集。矩阵 A = { a i j } A=\{a_{ij}\} A={aij} 是 G 的邻接矩阵,当 $v_i 和 v_j $ 相邻或 i=j 时, a i j = 1 a_{ij}=1 aij=1,否则等于0。
对每个节点,输入特征 G i j G^j_i Gij 是关节估计结果 < x i j , y i j , c i j > < x^j_i, y^j_i, c^j_i> <xij,yij,cij>,i 表示第 i 个姿态,j 表示骨架中第 j 个关节。 G i ∈ R L × N G_i∈R^{L×N} GiRL×N 表示训练集中第 i 个姿态的输入特征,L 是特征维度。

Image-Guided Progressive GCN Network. 我们工作中提出的核心方法是图像引导渐进式 GCN 进行校正。 该网络将用于推理不可见关节的图像上下文和姿态结构线索以新的方式合并在一起。补充材料中描述了各层和 ResGCN Attention Blocks 的细节信息。
(1) 从基础模块估计的不可见关节位置有时远离其正确位置,这使得直接回归其位移具有挑战性。因此,我们在基于坐标的模块中设计了一种直观的从粗到细的学习机制,该机制构建了一个 progressive GCN architecture,并通过渐进方式强制多尺度图像特征来提升性能的稳定性。
(2) 基于坐标的模块缺少 local context information。因此,我们挖掘每个关节位置的相关图像特征,并将其融合到模块中,换言之,我们通过合并图像特征图: F ^ 1 , F ^ 2 , F ^ 3 \widehat{F}_1, \widehat{F}_2, \widehat{F}_3 F 1,F 2,F 3来改进姿态估计结果。具体而言,我们设计了 cascaded ResGCN attention blocks 来捕捉存储在特征图中但在初始姿势 P ^ i \widehat{P}_i P i 中丢失的有用信息。根据感受野的大小将这三个特征图从粗到细排列,然后采用网格采样方法,通过在相关坐标权重特征图上挖掘位于 < x i j , y i j > < x^j_i, y^j_i> <xij,yij> 的特征来获得第 j 个关节特征,每个姿态通过该过程提取三个节点特征向量: j ^ 1 , j ^ 2 , j ^ 3 \widehat{j}_1, \widehat{j}_2, \widehat{j}_3 j 1,j 2,j 3。最后,将这些节点特征相应地反馈到 ResGCN attention blocks中。

Cascaded Feature Adaption (CFA). 特征图 F 1 , F 2 , F 3 F_1, F_2, F_3 F1,F2,F3 应该自适应地向 IGP-GCN 提供更有效的信息。此外,在级联设计中融合了低级特征和高级特征,以扩大各自的感受野,从而使更新后的特征信息更丰富。本模块中使用的 Conv Blocks 和 Fusion Blocks 的详细信息见补充材料。

CoupleGraph 耦合图. 我们将单个人体图扩展为一个耦合图,以捕获更多的人体交互,这是通过连接相应关节捕获人体交互信息实现的。 G ′ = ( V ′ , E ′ ) G'= (V', E') G=(V,E) 表示耦合图。一个人的关节数是 N,因此在耦合图中共有 2N 个关节, V ′ = { v i ∣ i = 1 , 2 , . . . , 2 N } V'=\{v_i|i= 1,2, ..., 2N\} V={vii=1,2,...,2N}。E’ 的边有两种类型:表示人体骨架的边: E s = { v i v j ∣ 如 果 人 体 中 i , j 相 连 } E_s=\{v_iv_j | 如果人体中 i,j 相连\} Es={vivjij} 和连接两个人的边: E c = { v i v i + N } , v i , v i + N E_c=\{v_iv_{i+N}\}, v_i, v_{i+N} Ec={vivi+N},vi,vi+N 对应于两个人体骨架的相同构件。在OPEC-Graph module 后增加 CoupleGraph module 来提高估计性能,每对人都由 CoupleGraph 处理。

3.3 Loss Functions

训练集表示为 Ω,Ω 中的 ground truth 姿态表示为 P i P_i Pi,第 j 个 ResGCN Attention block 的输出姿态为: P ^ i j \widehat{P}_{ij} P ij。从热图表示到坐标表示,integral regression 法生成初始姿态: P ^ i n i t \widehat{P}_{init} P init。因此,总损失被定义为 IGP-GCN 的 rectified loss 和 初始姿态的 initial loss 之和:
在这里插入图片描述
∣ P ^ i j − P i ∣ |\widehat{P}_{ij}−Pi| P ijPi 是估计姿态与 ground truth 姿态间的 L1 损失,n 是模型中 ResGCN attention blocks 的数量,该工作中,n=3。对每个块产生的姿态进行误差求和,并指定一个参数 λ j λ_j λj 来控制权重。我们网络中的所有可训练参数表示为 θ, M ∈ Z 2 N M∈Z^N_2 MZ2N 是一个二进制掩码,当相关关节有 ground truth 标签时,M中的元素对应于1,否则为0。 ⊙ \odot 表示元素的乘积运算,以便我们只考虑具有 ground truth 的关节上的误差。
最后生成的姿势将对应于最佳估计结果,因此我们将最后一个姿态作为我们的估计结果。

4 Occluded Pose 数据集

Occluded Pose(OCPose) 数据集包含更多严重遮挡的场景来评估多人体态估计。它包含不可见关节和复杂缠绕的人体姿态。我们主要考虑双人姿态场景,如舞蹈、滑冰和摔跤,因为它们有更可靠的标注和实用性。 本节提供了数据收集、数据标注和数据统计的详细信息。

数据收集: 当遮挡非常严重时,很难识别 ground truth 人体姿态。因此,我们主要收集更易标注的两人互动的视频,志愿者可以根据上下文信息推断姿态。我们先使用拳击、舞蹈和摔跤等关键词从互联网上搜索视频。然后通过将间隔限制为至少3秒,从这些视频中捕获包含各种姿态和人体的独特图像。最后,我们手动筛选片段以选择高质量的图像。所有图像都是在隐私问题许可的情况下收集的。

数据标注: 我们为用户开发了一个标注工具来 bound 双人区域,然后将两个模板骨架定位到正确的位置。招募了六名志愿者手动打标。每个骨架有12个关节,区分左右部位。除了标注边界框和人体姿态外,志愿者还需要指出关节是否可见。为了确保准确性,我们对每个图像使用交叉标注,同一幅图像至少两名志愿者提供标注。若结果间存在不可容忍的偏差,则会再次对图像进行标注。最终关节位置是两个标注的平均值。

表1:遮挡程度的比较。统计每个数据集不同遮挡级别的图像数。如上所示,MSCOCO 和 MPII 几乎没有严重遮挡。OCHuman是 sota 遮挡数据集,但我们的数据集更大,包含更严重的遮挡

在这里插入图片描述


数据统计: 总的来说,我们的数据集包含9000张图像和18000个完全带标注的人。训练集由5000个图像组成,验证集和测试集分别包含2000个图像。为了比较遮挡水平,我们在其他公共基准上评估了 bounding box 的平均 IoU,如CrowdPose、OCHuman、MSCOCO和MPII。表1体现了比较结果,证明了我们的数据集在遮挡级别上击败了所有其他基准

其他数据集: 我们的方法在公共基准进行了广泛的实验。按照典型的训练程序,我们在 OCPose、CrowdPose、MSCOCO和尤其遮挡数据集OCHuman上评估了OPEC-Net。CrowdPose数据集按5:4:1的比例进行划分,分别用于训练、测试和验证。我们将包含2500幅图像的OChuman验证集作为我们的训练数据集,其余2273幅图像用于测试。 然后遵循MSCOCO 的典型训练策略。

5 Experiments

本节将展示大量的定量和定性实验来评估 OPEC-Net 的有效性,并进行全面的消融研究来验证每个组件的有效性。

5.1 Experiments Settings

实现细节: 训练,设置参数 λ 1 = 0.3 , λ 2 = 0.5 , λ 3 = 1 且 e p o c h s = 30 λ_1= 0.3, λ_2=0.5, λ_3= 1 且 epochs= 30 λ1=0.3,λ2=0.5,λ3=1epochs=30。每个batch提供10幅图像来训练整个框架。初始学习率 = 1 e − 3 =1e^{−3} =1e3,以cosine 方式衰减。MSCOCO的输入图像大小为384×288,其他数据集的输入图像大小为320×256。使用AdamOptimizer通过反向传播优化参数。为进行公平比较,过滤背景中的实例proposal,在 OCPose 评估 baseline 时,只关注目标的对象关键点相似性(Object Keypoint Similarity: OKS)。基于PyTorch 实现了模型,并在一台具有11GB内存的 Nvidia GeForce GTX 1080 Ti上进行了实验。
评估准则: 我们遵循MSCOCO的标准评估指标,该指标在现有工作(Rmpe, Crowdpose, Mask scoring r-cnn, paf)中广泛使用。具体而言,我们报告的平均精度(mAP)在0.5:0.95, 0.5, 0.75, 0.80 和 0.90 的值。为取得 OPEC-Net 训练程序的合格姿态,制定两个规则来选择 proposal:proposal 姿态必须包含5个以上的可见点,且OKS值必须大于0.3。为了丰富数据集,我们还将翻转图像作为数据扩充策略。此外,我们还提供了姿态估计的可视化结果。
Baseline: 为进行比较,我们使用三种 sota MPPE方法:Mask RCNN、AlphaPose+ 和SimplePose 评估了我们的 OPEC-Net 模块的性能。为了进行公平比较,我们直接引用了文献[12]中Mask RCNN和SimplePose的结果,并从其公共代码中重新训练AlphaPose。对于OCPose、CrowdPose和OCHuman的评估,以AlphaPose作为初始姿态估计阶段,以ResNet-101为backbone,Yolo V3为检测器。对于MSCOCO数据集,我们在第一阶段使用SimplePose的公共代码,因为它比MSCOCO上的AlphaPose具有更高的性能。在MSCOCO上,Mask-RCNN用作检测器,ResNet-152用作backbone。这里的OPEC-Net表示一个人作为图的框架,而CoupleGraph表示在OPEC-Net之后执行基于CoupleGraph的框架的baseline。

5.2 OCPose数据集上的性能比较

定量比较. 定量结果如表2所示。与所有 baseline 相比,我们的方法获得了最佳mAP,并且有相当大的margin。

表2. OCPose上的比较结果

在这里插入图片描述

定性比较. 如图4第一行所示,我们的 OPEC-Net 能纠正关节间的错误链接,并估计被遮挡的关节,同时保持可见关节的高性能。我们从结果中观察到:(1)对于第一个样本,我们的方法提供了更好的姿态估计结果。即使是大 displacement 错误也可通过 OPEC-Net 进行纠正。(2) 此外,尽管第二种情况有强光干扰,但OPEC-Net能将关节调整到正确位置。(3) 第三组还显示 OPEC-Net 能产生更自然的姿态,符合人体约束。(4) 第四个图显示,OPEC-Net可以找到关节之间的正确链接。

在这里插入图片描述

图4. OCPose、Ohuman和CrowdPose的结果。这些是AlphaPose+ 方法和 OPEC-Net 在数据集上的定性比较结果。左边的姿态是用AlphaPose方法估计的,右边的是OPEC-Net。第一行是OCPose,第二行代表OCHuman,其余是CrowdPose。

CoupleGraph. 对 CoupleGraph 的评估如表2和图3所示。与OPEC-Net相比,CoupleGraph也显示出更高的提升:0.8 mAP@0.5:0.95,表明人体交互线索相当突出的。如图3所示,CoupleGraph在质量上显著优于OPEC净值。在这些人体交互场景中,由CoupleGraph估计的姿态更协调优越。

在这里插入图片描述

图3. OPEC-Net 和 CoupleGraph的定性评估。左图来自OPEC-Net,右图来自CoupleGraph

5.3 在其他数据集上与sota方法比较

对大量基准数据集的广泛评估表明了我们的模型对于遮挡问题的有效性。现有基准测试的实验结果如表3、表4和图4所示。我们的模型大大超过了所有baseline。

表3:遮挡数据集的定量结果

在这里插入图片描述
OCHuman: OCHuman主要用于姿态分割的新基准,我们是第一个在这个具有挑战性的遮挡数据集上报告所有baseline结果的人。与AlphaPose相比,我们在 A P 9 0 AP^90 AP90 上实现了 3.3 的改进,这进一步验证了OPEC-Net模型即使在高度挑战性的遮挡场景下也很稳健。
CrowdPose: 如表3所示,OPEC-Net 相较于 AlphaPose 大幅提升了 2.1 mAP@0.5:0.95。值得注意的是,当比较AP的term较高时,改进仍然很高。例如,我们的模型分别在AP 50, 75, 80 和 90 上实现了 0.1, 2.4, 3.2 和 2.9 的提升。
MSCOCO: 我们还介绍了最大的基准MSCOCO的结果。我们的模型精度略有提高。原因在于MSCOCO包含的遮挡场景太少,尤其是严重遮挡场景。此外,MSCOCO的许多不可见关节缺少标注。

表4:MSCOCO2017 test-dev set

在这里插入图片描述

Invisible vs. Visible: 为了分别研究不可见关节(Inv)和可见关节(V)的有效性,我们根据OKS的相似规则报告了每种类型关节的统计数据。从表5可以看出,OPEC-Net 主要改善了不可见关节而非可见关节。依据Inv@75,我们的框架在CrowdPose和OCPose上分别实现 3.3% 和 4.9%的提升。相反,OPEC-Net 对可见关节的改善幅度最大只有1%,因为我们主要关注的是不可见关节。这一比较也解释了为什么MSCOCO数据集的增益小于其他包含更多遮挡的数据集。

表5:CrowdPose和OCPose上可见关节和不可见关节的结果

在这里插入图片描述

5.4 Alabtion studies

为了详细分析我们的模型,我们进行了全面的消融实验,以评估每个组件的和 clue 的作用。如表6所示,我们给出了研究各组成部分影响的baselines。

表6:OPEC-Net 框架的消融实验 (mAP@0.5:0.95)

在这里插入图片描述

6 Conclusion

本文提出了一个新的 OPEC-Net 模块和一个具有挑战性的遮挡姿态(OCPose)数据集来解决人群姿态估计中的遮挡问题。两组件:Image-Guided Progressive GCN 和 Cascaded Feature Adaptation 被设计用于利用自然人体约束和图像上下文信息。四个基准以及消融研究的实验结果证明了我们方法的有效性。实验也证明,热图和坐标模块协同工作,在各方面都能取得显著的改进。通过提供 OCPose 数据集,我们希望引起人们对姿态估计中遮挡问题的关注。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值