[论文阅读]Contextual Instance Decoupling for Robust Multi-Person Pose Estimation

在这里插入图片描述

该论文发表于CVPR2022

Abstract

拥挤场景使得定位不同人体关键点具有挑战性。本文提出了一种上下文实例解耦(CID,Contextual Instance Decoupling)的新多人姿态估计管道(pipeline)。CID不再依赖于人的边界框去空间上区分人。CID将图像中的人体解耦到多个实例感知的特征图中,每个特征图都用来为具体的人体实例推断关键点。 与包含边界框检测的方法对比,CID具有可微性和对检测错误具有鲁棒性。将各人体实例解耦到不同的特征图可以隔离各人体实例之间的干扰,并且能够在大于边界框范围的尺度上获取上下文线索。实验证明CID能够在拥挤数据集上达到非常出色的效果。

Background

目前的多人姿态估计方法可以总结分为三种:自顶向下方法:检测人体框后对单个人体进行关键点检测;自底向上方法:先检测人体关键点,并将他们组合到对应实例;单阶段方法:根据人体特征直接回归关节坐标点及实例标签。自顶向下方法受限于人体检测框裁剪、ROI align等操作,这些操作会损失掉检测框以外的上下文信息。而自底向上的关键点组合方法是网络训练后的后处理单独操作,不能和关键点检测阶段一起训练,该阶段也会损失一些上下文信息。单阶段人体姿态估计方法虽然能够有比较高的效率,但是其因全连接层容易过拟合的问题很难学习到复杂的人体姿态。自顶向下和自底向上两种二阶段方法依赖于热图检测,也就意味着在网络检测到热图之后还需要使用argmax的算法定位关键点。分析上述方法的不足之处,作者考虑到是否可以研究一个新的多人姿态估计pipeline,这种方法能够最大程度地保留必要空间信息。对此,作者提出了一种新的解耦操作,对图像中的各个人体实例进行解耦,对于每个人体实例来说都学习一个特定的特征图,每张特征图学习到的都是对应于该单个人体实例的特征映射。相对于之前的二阶段方法该方法能够囊括到更多人体特征、获取更重要的空间信息。并且,对于不同人体实例进行分开检测,能够应对更多的人体尺度变化。(CVPR2021DEKR是通过解耦关节点来达到与两阶段方法差不多的性能)
在这里插入图片描述
上图展现了目前各多人姿态估计方法的弊端。(a)自顶向下方法会因为人体检测框裁剪损失部分信息。(b)自底向上方法会依赖关键点检测准确度,分组方法对检测错误不具有鲁棒性。(c)单阶段方法提取图像特征后直接回归人体坐标点,因缺乏空间泛化能力,学习不到长距离依赖关系,无法拟合复杂人体姿态。(d)本文方法可以有效捕获到人体特征而不受检测框约束,同时不损失空间信息。且关键点检测和分组一起训练。

Method

在这里插入图片描述

对于单张多人图像I来说,多人姿态估计的目标是估计每个人的姿态关键点的位置。

  { K j ( i ) } j = 1 , ⋯   , n i = 1 , ⋯   , m = M P P E ( I ) \ { \{K_{j}^{(i)}}\}_{j=1,\cdots,n}^{i=1,\cdots,m}=MPPE(I)  { Kj(i)}j=1,,ni=1,,m=MPPE(I)(对于第i个人体实例的第j个关键点)

该网络结构使用热图来进行关键点定位,对于热图模块来说,图像I进行一系列卷积操作之后,将得到的特征进行热图生成,得到一个n通道的热图,通道数n对应了关键点的数目。
  { H j } j = 1 n = H M ( F ) , F = Φ ( i ) \ \{H_{j}\}^{n}_{j=1}=HM(F),F=\Phi(i)  { Hj}j=1n=HM(F)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值