[论文评析]AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time2022


论文信息

论文题目:AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time
发表:IEEE TPAMI,2022
作者:Hao-Shu Fang∗, Jiefeng Li∗, Hongyang Tang, Chao Xu , H a o y i Z h u , Haoyi Zhu ,HaoyiZhu, Yuliang Xiu, Yong-Lu Li, and Cewu Lu

背景

传统的姿态估计与跟踪主要利用躯干的信息,然而为了捕捉人类的细微动作以进行复杂的行为分析,全身姿势估计(包括面部、身体、手和脚在内)比传统的仅身体姿势估计更为重要

这篇文章提出了一个新的框架AlphaPose****能够用于全身的姿多人态估计与跟踪所提的多人姿态估计方法属于自上而下的两阶段方法:即先检测人体的边界框,然后在分别估计每个边界框内的人体姿态。后面的跟踪实际上就是在多人姿态估计的基础上加上了人体身份识别。

AlphaPose

给定一个输入图像,我们首先使用YoloV3或EfficientDet等现成的物体检测器获得(i)人类检测的边界框。 对于每一个检测到的人类,我们对其进行裁剪和调整大小,并将其通过姿势估计和跟踪网络以获得全身人类姿势和Re-ID特征

整个过程中涉及到的技术点有
(a)对称积分回归被用于精细级别的关键点定位。(b)采用pose NMS来消除多余的姿势。©姿势引导的对齐(PGA)模块被应用于预测的人类再识别特征,以获得姿势对齐的人类再识别特征。(d)多阶段身份匹配(MSIM)利用人类的姿势、Re-id特征和检测到的边界框来产生最终的跟踪身份。并且,(e)在训练过程中,建议生成器和知识蒸馏被用来进一步提高网络的泛化能力。

在这里插入图片描述

下面主要介绍框架的两大块: 全身的多人姿态估计多人跟踪, 然后再介绍整体框架。

全身的多人姿态估计

全身的多人姿态估计框架图如下。

下面对包含的技术点进行介绍。

对称积分回归Symmetric Integral Keypoints Regression

热图Heatmap是人体姿态估计领域中联合定位的主要表示, 然而它不可避免的带来量化误差,作者认为基于soft-argmax的积分回归更适合全身关键点定位, 然而它也存在问题,具体表现在: (1)不对称梯度问题 (2)大小相关的关键点评分问题。

先来看第(1)个问题

积分回归操作:
在这里插入图片描述
其中 p x p_{x} px表示像素在heatmap上归一化之后的似然。
基于L1范数的回归损失定义为:
L r e g = ∣ ∣ μ − μ ^ ∣ ∣ 1 L_{reg}=|| \mu - \hat{\mu} ||_{1} Lreg=μμ^1
每个像素的梯度:
在这里插入图片描述
可以发现:梯度的振幅是不对称的,给定相同的距离误差,当关键点位于不同位置时,梯度变得不同。这显然有问题

因此作者提出了振幅对称的梯度函数:
在这里插入图片描述

进一步通过Lipschitz分析展示ASG可以提供更稳定的梯度用于训练:

假定heatmap的尺寸为W, 对于传统的积分回归,
在这里插入图片描述

对于ASG, 我们设置 A g r a d A_{grad} Agrad=W/8,以使梯度的平均范数与积分回归相同, 最终可得:
在这里插入图片描述
这表明: ASG的Lipschitz常数是原始积分回归的1/4倍,表示梯度空间更平滑,并且可以更容易地优化模型

再来看第(2)个问题

在以前的方法中,heatmap的最大值被视为联合置信度,该置信度依赖于heatmap大小且不准确: 大关节(例如左髋关节)将产生比小关节(例如鼻子)更小的置信值,这会损害预测置信值的可靠性,显然是有问题的。

因此作者提出了Two-step Heatmap Normalization来克服这个问题:

首先对于Logits Z, 通过逐元素进行归一化:
在这里插入图片描述
然后再获取最大值作为置信度值:
在这里插入图片描述
这样一来置信度的计算就摆脱了heatmap尺寸的限制。

最后在进行全局的归一化来产生概率热图:
在这里插入图片描述

pose NMS

对于自上而下的两阶段方法,一个主要的缺点是早期承诺问题, 如果人类检测器未能检测到一个人,那么姿态估计器就没有办法恢复它。
以往的方法往往设置了一个很高的阈值导致往往出现该问题。

在这里,相反,作者设置了很小的阈值来确保高检测召回率。 这样一来,human detections不可避免存在冗余, 因此作者提出了pose NMS来消除这些冗余: 首先,选择最有把握的姿态pose作为参考,然后应用消除标准elimination criterion对与之接近的一些姿势进行消除。这个过程在剩余的姿势集上重复进行,直到多余的姿势被消除.

下面来看elimination criterion:
如果pose i 与参考pose j之间的距离小于指定阈值,则人定pose i为冗余,
在这里插入图片描述

那么如何定义两个pose之间的距离呢?
由于每个pose实际上就是一些点组成的边界框和 置信度, 因此distance的定义也是利用置信度信息,和位置信息, 如下:
在这里插入图片描述
第一部分计算两个pose的置信度的相关性,只有当两个pose对应点的置信度都很高时,值才会接近1; 第二部分基于高斯核计算两个pose之间的距离。

其中:
在这里插入图片描述
在这里插入图片描述

这里涉及到4个参数: θ 1 , θ 2 , λ , η \theta_{1}, \theta_{2}, \lambda, \eta θ1,θ2,λ,η, 如何优化呢? 作者提出每次固定两个参数,然后去优化另外两个参数,迭代直至收敛。

多域Knowledge distillation

除了标注新的数据集以外,作者v采用多域知识蒸馏来寻来训练网络。三个额外的数据集包括:namely 300Wface [61], FreiHand [62] and InterHand [63], 训练的每个Batch由来自不同数据集的样本组成,每个样本采用了特定数据集的数据增广策略。

尽管这些特定领域的数据集能够提供准确的中间监督,但它们的数据分布与野外图像有很大不同。为了解决这个问题,作者将姿势引导建议生成器pose-guided proposal generator扩展到全身场景,并以统一的方式进行数据扩充

下面来看这个Part-Guided Proposal Generator:
对于具有紧密包围边界框的不同身体部位,建议生成器生成一个与人体检测器输出分布一致的新框。由于我们已经有了每个部分的地面真实边框,我们把这个问题简化为对检测到的边界框和地面真实边界框之间的相对偏移量的分布进行建模,不同部分的偏移量不同。更具体地说,存在着一个分布:
在这里插入图片描述
由于水平和垂直方向的边界框的方差时独立的,因此可以分开简化建模:
在这里插入图片描述
其中:
在这里插入图片描述

为了求解这个问题, 作者基于自行标注的数据集alpe-FullBody, 首先把每个样本的标注信息(f face, body and hand.)分开,然后分别计算偏移。在处理完Halpe-FullBody中的所有实例后,偏移量形成了一个频率分布,将数据拟合为一个高斯混合分布。对于不同的身体部位,我们有不同的高斯混合参数

下图展示了不同部位的边界框偏移的分布
在这里插入图片描述

这样一来, 在训练阶段,对于属于不同部位的samples, 可以根据上述拟合的相应分布来得到相应的偏移量, 从而把不同部位的数据集的数据增广整合到一个统一的框架用于训练。

多人跟踪Multi-person tracking

多人跟踪实际上就是在姿态估计器额基础上再加了一个人的重新识别分支网络。因此,网络可以同时估计人类的姿势和重新识别特征。最后, 通过多阶段身份匹配(MSIM)算法,人类的提议信息(身份嵌入、箱体和姿势)被整合起来,从而实现在线实时姿势跟踪。

这里主要涉及两个技术点: 一个是Pose-Guided Attention Mechanism (PGA) 模块,用于进一步提升人的身份特征, 另一个是MSIM, 下面对这连个技术分别介绍。

PGA

人的re-ID特征可以用来从大量的人的提议中识别同一个人。在我们自上而下的框架中,我们从物体检测器产生的每个边界框中提取re-ID特征。然而,re-ID特征的质量会被边界框中的背景所降低,尤其是当边界框中存在其他人的身体时。为了解决这个问题,我们提出了姿势引导注意(PGA),强制提取的特征集中在感兴趣的人体上而忽略背景的影响。

对于每个人,pose estimator产生一个包含有k个关键点的轮廓,对应k个heatmap。记re-ID特征为 m i d m_{id} mid., 注意力权重为 m A m_{A} mA, 则加权后的re-ID特征为:
在这里插入图片描述
最后再通过一个全连接层得到128维的身份嵌入特征。

MSIM

记第t帧的第i个人的提议proposal为 H t i H_{t}^{i} Hti, 其总共包含三方面的特征信息: 姿态 P t i P_{t}^{i} Pti, 边界框 B t i B_{t}^{i} Bti, 上一步获得的身份特征嵌入 E t i E_{t}^{i} EtiMSIM算法的作用就是利用这些信息来为每个 H t i H_{t}^{i} Hti分配相应的ID

假定前t-1帧的检测与跟踪结果保存在跟踪池Pl中, 首先利用kalman滤波器来平滑这些特征,匹配国策灰姑娘分为两步。

第一个阶段主要是计算第t帧的身份嵌入和池Pl中的嵌入之间的亲和矩阵Affinity Matrix M e m b i M_{emb}^{i} Membi,匹配规定定义如下:
在这里插入图片描述
link(p, q)表示 H t p H_{t}^{p} Htp与Pl中的第q个human proposal的轨迹相同。

第二个阶段,作者考虑那些未被跟踪的人类提议的位置和形状约束

形状和位置的融合距离矩阵可写为:
在这里插入图片描述
为了匹配那些与前几帧不是很相似的小轨道,我们适当地降低阈值,并重复上述阶段。如果仍然没有匹配的提议,作者认为这是一个新的追踪器,所以会给它分配一个新的ID。

.

AlphaPose整体框架

系统的整体框架分为5个部分:
在这里插入图片描述
通过FIFO队列,作者并行实现这5各部分,前一部分的输出作为后一部分的输入,这几大提升了运行效率。

网络结构这块, 对于human detector, 作者直接借用了经典的检测器, 比如: YOLOV3,

对于pose estimator, 作者设计了新的网络, 如下图:
在这里插入图片描述

总结

很好的系统,借鉴吸收了很多文章的思想和成果, 没有相关经验积累很难搞出来…

References

1.Fang H S, Li J, Tang H, et al. AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time[J]. arXiv preprint arXiv:2211.03375, 2022.

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MasterQKK 被注册

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值