I^2RNet: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation 笔记

做一个辛勤的搬砖者

已于 2023-04-17 17:22:30 修改

阅读量1.3k

点赞数

文章标签：计算机视觉人工智能神经网络深度学习

于 2022-09-25 11:38:12 首次发布

本文链接：https://blog.csdn.net/qq_35374674/article/details/127034488

版权

I²RNet: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation

前言
Background & Motivation
Contribution
Methodology
Experiments
- Compare with the State-of-the-art Methods
- Ablation Studies

前言

今天跟大家分享一篇厦大和微软的工作《I²R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation》，本文的新颖之处在于作者采用分层建模的方式来解决多人姿态估计问题。具体来说，首先建模单个姿态中关节点之间的关系，然后建模空间中人与人的关系。

文章简介：

出处： IJCAI 2022

题目： 《I²R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose Estimation》

作者: $Yi w e i D in g$ , $W e njin De n g$ , $Yin g l in Z h e n g$ , $P e n g f e i L i u$ , $M e ih o n g Wan g$ , $X u an C h e n g$ , $J ianmin B a o$ , $Do n g C h e n$ , and $M in g Z e n g$

单位： $S c h oo l o f I n f or ma t i cs, X iam e n U ni v ers i t y$ ; $M i croso f tR ese a rc h A s ia$

文章地址： https://arxiv.org/pdf/2104.02486.pdf

项目地址：https://github.com/leijue222/Intra-and-Inter-Human-Relation-Network-for-MPEE

Background & Motivation

本文主要解决多人姿态估计（Multi-person Pose Estimation）问题。多人姿态估计方法可以分为Top-Down和Bottom-up两种处理范式。其中，Top-down的方法首先从图像中检测出所有人，将每个人crop出来之后，resize到相同的尺寸，送入单人姿态估计模型进行关节点定位；而Bottom-up的方式将图像中所有关节点检测出来之后，在对所有关节点进行分组，即分配到每个人身上。这两种方式各有千秋。

虽然已有方法取得了很好的结果，但是依然存在两个问题。对于Top-down方法来说，由于它将每个人crop出来单独进行姿态估计，因此会忽略多人之间的交互信息，即人与人之间的关系。对于Bottom-up方法来说，它间接地考虑了关节点之间的关系（因为Bottom-up是将所有人的关节点估计出来，再进行分组。在估计所有点的过程中，网络会学习到所有点之间的关系），但是同样也忽略了人与人之间的关系。

因此，本文主要探究如何建模intra-human（关节点级别）和cross-human（实例级别）的关系来提高多人姿态估计性能。本文的主要贡献有如下三点。
（本文的Motivation还是非常不错的，确实目前MPPE方面忽略了点之间、人之间的一些关系约束）

Contribution

提出了一个两阶段的MPPE框架，能够同时建模关节点间和人与人之间的关联。所提出的方法减小了姿态估计和人-人交互之间的gap。
提出的方法比较flexible。Intra-human的关系可以通过任意的姿态估计模型获得。同时inter-human关系的建模是很轻量的。
在CrowdPose, OCHUman, COCO上超过了目前最好的结果。

Methodology

本文的整体框架也是比较简洁的，整体框图如图1所示，提出的I²RNet是一种Top-down的Heatmap-based方法，主要包含两个过程，第一个即为Intra-Human关系的建模，第二即为Inter-Human关系的建模。对于本文来讲，作者重点关注于Inter-Human关系的建模。

Intra-Human Relation Modeling： 对于第一阶段，其实是很简单的，作者直接采用已有的姿态估计模型来定位每个人的姿态，即P={P₁, P₂, …, P_N}，其中N表示图像中人的数量。在这里，作者采用了MSE Loss作为中间监督。
在这里插入图片描述
Inter-Human Relation Modeling： 如果要想建模人与人之间的关系，需要得到每个人的Instance级别的表征。经过第一阶段可以得到每个人的姿态P_i $\in$ $\mathbb{R}^{h \times w \times d}$ 。为了得到每个人的表征，作者采用了最大池化对得P进行全局特征的提取，得到降维后的特征 $P'_i \in \mathbb{R}^{h/R \times w/R \times d}$ ，其中，R表示最大池化的步长；随后将 $P'_i$ 进行flatten操作，并将所有人的特征拼接到一起，得到最后的包含每个人instance-level表征的特征 $\in \mathbb{R}^{L \times d}$ ，其中, $\times w/R \times N$ 。
在这里插入图片描述
随后，将 $X$ 送入Transformer block来建模Instance之间的关系。

整个Inter-Human Relation Module的结构如下图所示。为了保留每个Instance表征的多样性及保留更多的空间信息，这里作者没有将Intra-特征的分辨率降为1。如图所示，右侧 $X$ 中每种颜色表示一个Instance。经过一次W映射后，可以通过建模Instance内部表征的关系来学习Instance的全局表征。随后经过矩阵乘（ $\otimes$ ），可以建模Instance之间的关系，即 $M_Att$ 。将其与value向量融合后，得到最终包含Instance-level关系的特征 $X^{'}$ 。
在这里插入图片描述
最后，将 $X^{'}$ 与单人Pose特征融合后（增强单个实例表征，以及关节点的空间信息），一起送入到Pose Estimation Head进行最终的姿态生成。这里，作者也采用了关节点热图的MSE Loss进行监督。最终的训练Loss为Intra- 和Inter-两部分的Loss加和。

讨论： 对于建模多人场景中Instance-level的关系来说，Instance数量 $N$ 其实是一个比较重要的超参数，这决定着关系图的尺寸。本文中，作者根据不同数据集的特点，采用了不同的 $N$ ，如 $N_{CrowdPose}=6$ ， $N_{OCHuman}=3$ ， $N_{COCO}=4$ 。由于 $N$ 被设置为一个经验值，这就要求在学习过程中对Instance数量小于 $N$ 、大于 $N$ 的情况进行处理。

对于Instance数量小于 $N$ 的情况，采用特征补齐，将Instance数量补充至 $N$ ，但在关系计算过程中，将该部分特征抹去，直接计算图像中存在的Instance之间的关系；对于Instance数量大于 $N$ 的情况，随机选取一个Instance作为目标，并选择其 $N - 1$ 个近邻。

Experiments

Compare with the State-of-the-art Methods

在这里插入图片描述

Ablation Studies