Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields【菜鸟读者】-CSDN博客

本文链接：https://blog.csdn.net/tangbin2009/article/details/81122788

本文介绍了使用Part Affinity Fields实现的实时多人2D姿态估计算法，通过CNN网络检测身体部位和肢体段，提高检测速度和精度。Part Affinity Fields有助于快速连接关节，形成完整姿态。文章详细阐述了网络结构、损失函数计算和关节拼接过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields

Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields

1.文章概要

文章实现了图片中的多人姿态检测，与已有的方法相比，最大的优势在于检测的速度对人物的数量不敏感，在保持检测精度的情况下大幅提升了速度。

怎样快速的理解本文的内容，我尝试着讲下面一个故事：

有一张照片上有很多人在摆pose，老师正要给小朋友们讲这些人都在摆什么姿势。突然，一个叫VGG19的熊孩子把照片给撕得七零八碎。为了恢复出照片上的姿势信息，于是老师找来一些好朋友帮忙。
首先来帮忙的是分别叫CNN_S和CNN_L的两个闺蜜。CNN_S负责从碎片中把身体关节部位（头、肩、胳膊肘等）识别出来，并且按照关节部位将所有人的同一关节点坐标记录一个热图中。CNN_L擅长识别肢体部分(大臂、小臂…)，同样，她也要把所有的人同一肢体记录到一张图像中。需要提醒的是：CNN_L只是判断出碎片里是否有肢体，无法判断肢体两端是胳膊肘还是膝盖，
下面的任务就是如何把肢体两端的关节点连接起来，并且最终拼接成人骨架结构，以表示当前人的姿势。
这个任务就交给了帕森(Parsing)大叔，大叔先拿了两张位置相连的关节热图（例如肩膀和胳膊肘的热图），根据CNN_L提供的肢体图，找到两张热图中最可能的关节对应关系。这个关节点的连线就带表了一个肢体。然后大叔重复按照此方法把身体的其他肢体都逐一找到，最后把这些找到的肢体按照位置关系进行拼接，就实现了图中所有人物姿势的还原。

好了，故事结束，希望这个故事能够对文章的理解产生一点帮助。下面介绍一下本文的亮点。

2.文章亮点

目前，已经有了许多关于检测的工作。许多的检测方式都是先想办法检测出身体的部位的关节点，然后再连接这些部位点得到人的姿态骨架。
本文的工作差不多也是这个套路，但是为了快速的把点连到一起，提出了Part Affinity Fields这个概念来实现快速的关节点连接。
main_work
上图展示了文章进行多人姿态检测的效果，下栏的子图展示了文章的亮点–Part Affinity Fields（部分亲和字段<求更好的翻译>）。Part Affinity Fields的关键作用就是可以实现一段躯干（limb）两端（part）的快速匹配。

个人理解: Part Affinity Fields就是一个向量，该向量代表了身体的一段躯干（如白花花的大腿…）

好了，文章的亮点介绍完了，下面介绍文章的主要内容。我认为，这篇文章主要工作就是要用CNN在图片中检测两个东东：
1. Part(关节点或身体部位) — Part Confidence Maps
例子：头、肩膀、胳膊肘…..
2. Part Affinity(肢体段)检测 — Par Affinity Fields
例子：大臂(不包含肩膀和胳膊肘)

3.姿势识别流程

这里写图片描述

处理过程：图片->10 layers of VGG-19 -> two branch of CNN –> part confidence $S^t$ & part affinity fields $L^t$ -> parsing -> pose

上面一张图展示了本文所述的图片处理网络架构，主要包括这么几个过程：
1. 准备一张包含人物的图片；
2. 利用VGG-19网络(熊孩子)的前10层对图片进行处理，得到图片的特征 $F$ ；
3. 特征 $F$ 通过一个连续的多阶段网络进行处理，网络的每个阶段( $t$ )包含了两个分支，其输入结果分别为 $S^t$ (Part Confidence Map)和 $L^t$ (Part Affinity Map)。
4. 其中： $S^t$ 告诉我们哪些地方是头部，哪些地方是胳膊肘。 $L^t$ 告诉我们哪些地方肯定在哪条白花花的大腿上。
5. 在 $L^t$ 的帮助下，把 $S^t$ 的坐标点连接起来，形成人的姿势骨架。