I^2R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation阅读笔记

AnZhiJiaShu

已于 2022-07-11 10:29:10 修改

阅读量470

点赞数

文章标签：深度学习人工智能 python

于 2022-07-03 17:09:57 首次发布

本文链接：https://blog.csdn.net/unauna9739/article/details/125551694

版权

本文介绍了I2R-Net，一种用于多人姿态估计的创新方法，它通过人内关系模块和人间关系模块捕捉人体内部依赖和交互。I2R-Net在CrowdPose和OCHuman数据集上超越了当前最佳方法，证明了其在处理多人姿态估计中的优越性。

摘要由CSDN通过智能技术生成

$I^2R-Net$ : 多人姿态估计的人内和人间关系网络

IJCAI 2022
论文链接
 代码链接

摘要： 本文提出了一种用于多人姿态估计的人内和人间关系网络： $I^2R-Net$ （Intra- and Inter-Human Relation Networks）。该网络包括两个基本模块：① 在单人上操作的人内关系模块：Intra-Human Relation Module ，用于捕捉人体内部的依赖关系；② 人间关系模块： Inter-Human Relation Module ，考虑了多个实例间的关系，侧重于捕捉人体间的交互。通过降低特征图的分辨率，可以设计出非常轻量级的 Inter-Human Relation Module，同时学习有用的关系信息，显著提高 Inter-Human Relation Module 的性能。即使没有华丽的点缀（bells and whistles），我们的方法与当前的sota方法相比也有过之而无不及。 COCO、CrowdPose和OCHuman数据集上的实验结果表明， $I^2R-Net$ 优于所有 sota 方法。 $I^2R-Net$ 在 CrowdPose 和 OCHuman 数据集上分别达到 77.4%AP 和67.8% AP ，遥遥领先现有方法。此外，消融研究和可视化分析也证明了模型的有效性。

文章目录

$I^2R-Net$ : 多人姿态估计的人内和人间关系网络
1 Introduction
2 Related Work
- 2.1 Multi-Person Pose Estimation
- 2.2 Vision Transformer
3 Approach
4 Experiments
5 Concluding Remarks

1 Introduction

2D多人姿态估计（MPPE）的目标是为给定图片上的所有人检测并定位人体关键点。由于人体姿态提供了丰富的结构和运动信息，MPPE在人体活动理解、人机交互、avatar 动画等领域被广泛应用。
当前流行的多人姿态估计方法被分为两类：① Top-down 法，先检测每个人的 bounding box，再分别为每个人估计单人姿态。② Bottom-up 法，定位图像中的所有关节，然后将其分组。尽管MPPE已经取得了良好的性能，但由于重叠、自遮挡以及各种各样的外观和姿态，上述方法在拥挤场景中的效果较差。Top-down 法分离地处理每个人，忽略了人间相互作用的信息线索，Bottom-up 法联合检测图像中所有人的关节，可能会关联人与人之间的关节，但人与人之间的关系是模糊和不可知的。最近一些先驱通过解耦姿态或在一个人身上融合多个可能的姿态来解决上述挑战，但这些方法仍未充分考虑人与人之间的多重相关性，这些重要的相互作用尚未被探索。
本文研究了如何利用人体内部或人与人之间的相关性，例如具有相似姿态的人或彼此密切互动的人，以提高多人姿态估计的准确性。如图1(a)所示的两个相互拥抱的人，他们的姿态显示了强大的人体内部信息（例如，left-right pairs 和同一肢干的两个关键点）和明显的人间关系。在图1(b)中的人们一起跳舞，他们相似的姿态为准确估计姿态提供了人与人之间的线索，尤其是在遮挡区域或低分辨率区域。

在这里插入图片描述

图1：人体内部关系和人体间关系的说明。(a) 人体内部关系被标记为绿色箭头（left-right pairs 和同一肢体的两个关键点），(b) 人与人之间的关系被标记为黄色箭头（不同人体中相同类型的关键点）。

基于以上观察，我们提出了一种新的用于 MPPE 的 two-stage网络： Intra- and Inter-Human Relation Networks ( $I^2R-Net$ )。第一阶段的目标是学习单个人身体各部位间的依赖关系，它以高分辨率运行，并生成小部位的位置，例如眼睛、手腕和脚踝。第二阶段以低分辨率进行多人协作，旨在捕捉人间交互，如手相触、手臂相连和双腿相交。 值得注意的是，每个人体实例都由一个低分辨率特征图表示，而不仅仅是一个向量。 这样做可以从区域获得不同的响应，因为人体实例间的交互依赖于空间语义信息。同时，低分辨率的特征图显著降低了第二阶段的计算成本，但足以捕获有用的相关信息。这两个阶段分别称为：Intra-Human Relation Module 和 Inter-Human Relation Module ，这两个阶段以 skip-connection 顺序堆叠。
两阶段框架的结构灵活，功能专用于MPPE。Intra-Human Relation Module 可以是任意单人姿态估计方法，探索关键点检测的 part-level 模式。Inter-Human Relation Module 可以通过任何 non-local model 实现，以更加关注语义特征中的相关性。这两个模块能够协同工作来推断多人姿态，第一个模块为下一个模块提供高质量的姿态信息，而第二个模块帮助第一个模块消除遮挡区域或差别较小区域中的歧义。
在拥挤场景（包括CrowdPose和OCHuman）的通用数据集上评估模型的实验证明， $I^2R-Net$ 大大优于所有 sota 方法。我们的模型在CrowdPose上达到 77.4%AP , 超出了 HRFormer-B 5.0%，在OCHuman数据集上达到了67.8% AP，超出了TransPose-H 5.5%。此外，COCO数据集上的优越结果也表明我们的方法可以作用于在非拥挤场景。
总之，我们的工作贡献如下：

我们提出了一个两阶段MPPE框架，该框架不仅关联单个人体的每个身体部位，而且还建立了图像中多人间的联系。该方法在姿态估计和人间交互间搭建了桥梁。
该框架设计灵活。处理人体内部关系的模块可以是任意姿态估计方法，模拟人间关系的模块也非常轻量级。
大量实验表明，在没有华丽点缀的情况下，我们的方法在具有挑战性的数据集（如CrowdPose、OCHuman和COCO）上显著优于sota方法。

2 Related Work

2.1 Multi-Person Pose Estimation

Top-down 框架： 由于目标检测的巨大成功，使用给定的人体边界框可以直观估计每个人的姿态。因此Top-down 框架中，许多工作的重点是开发单人姿态估计，而非优化现成的检测模型。近年来方法的主要发展思路是改进空间中的特征表示。Mask r-cnn 在基于CNN的特征提取器上直接添加关键点检测分支。Stacked hourglass 遵循多阶段方式堆叠模块以进行密集预测，并在每个阶段应用中间监督，驱动模型从粗到细进行估计。CPN 在空间上采用金字塔结构来处理不同尺度的部位。HRNet并没有用序列模块加深网络，而是保持多分辨率并行，从而产生丰富的高分辨率表示。
Bottom-up 框架： 自底向上方法先从未裁剪的图像中预测所有 identity-free 身体关键点，然后将这些身体关键点分组为不同的个体。大多方法采用热图进行关键点检测，自底向上研究中，重点关注如何识别关键点并将其分组给相应的人。OpenPose提出了部位亲和场，以揭示同一肢体中两个关键点间的关系，在分组阶段，在计算两个候选关键点之间的线积分分数后，关联分数最高的一对，这种方法归为 PAF family。另一种流行的方式是关联嵌入：AE，他们学习每个人的 tag embeddings，并通过聚类将关键点分组给个人。
自顶向下方法逐个估计姿态，没有考虑实例之间的关系。虽然自底向上的方法同时检测所有姿势，但人与人之间的关系线索是模糊的。相反，我们的工作关注于捕捉多人场景中的层次交互，以提高姿态估计的性能。因此，我们提供了一个新的两阶段框架，重点关注MPPE的 part-level 和 instance-level 关系建模。

拥挤场景下的人体姿态估计： 先前工作的性能随着人体数量的增加而降低。尽管 Top-down 法性能优于 Bottom-uo 法，但由于遮挡，它们在拥挤的场景中仍会失败。因此，CrowdPose数据集和OCHuman数据集被提出以鼓励研究人员研究这一具有挑战性的问题。论文 Crowdpose 和 Peeking into occluded joints 提出的方法试图解耦拥挤人群的耦合姿态。
然而，本文提出的 Inter-Human Relation Module 旨在通过利用实例之间的关系来克服这一困境。

2.2 Vision Transformer

Transformer是一种基于注意力的模型，近年来在神经语言处理中得到了研究，如BERT和GPT。由于Transformer强大的性能，最近越来越多的工作将Vision Transformer 用于计算机视觉任务中。之前的一些工作将Transformer应用于 2D 姿态估计，例如，TransPose提出了一种具有 attention 层的姿态估计器来捕捉并揭示2D热图间的空间依赖性、HRFormer通过自注意力模式学习高分辨率表征。然而，这些工作都没有考虑到人间关系。
虽然最近的工作（ Multi-person 3d motion prediction with multi-range transformers. 和 Remips: Physically consistent 3d reconstruction of multiple interacting people under weak supervision.）利用Transformer计算关系，但其目标是解决人间关系直观的3D运动预测或重建。相比之下，我们的工作第一次将多人相关性纳入难以建立关系的单图像2D姿态估计中，我们提出了一个新的模块来解决这一问题。此外，我们提出了一个灵活、轻量且通用的模块，而非使用设计良好的框架来建立人间关系，该模块可以轻松集成到当前或未来的单人姿态估计框架中。

3 Approach

3.1 Overview of $I^2R-Net$

最低0.47元/天解锁文章