PifPaf: Composite Fields for Human Pose Estimation
CVPR 2019
reading time : 2019/09/24
papaer address : https://arxiv.org/abs/1903.06593v1
github地址: https://github.com/vita-epfl/openpifpaf
本文提出了2D多人姿态估计自底向上的新方法。在低分辨率,拥挤多人的场景下,检测效果很好。将场的概念从标量个向量扩充到复合场。
PifPaf : Pif (Part Intensity Field) : 定位身体部位。
Paf(Part Association Field) : 关联身体部件形成完整的人。
方法在低分辨率和拥挤的,混乱,遮挡的场景性能好:由于PAF场使用了更加详细(fine-grained)的信息。使用了Laplace loss回归,其混合了不确定的概念。
结构的特点:a fully convolutional single-shot box-free。
常见的几种greedy decoders:Part Affinity Field,Associative,PartsonLab。
Part Intensity Fields
相比于CVPR2017 google的置信图和回归相结合的方法,我们回顾这一技术在复合场领域的语言,使用了一个尺度,形成了PIF。
复合结构:一个标量:代表置信度。
一个向量:指向最近的关节点。
另一个标量:关节的size。
所以在每一个位置(i , j),PIF预测了一个置信度c,,一个向量(x,y),一个尺度。。得到了PIF回归的结果,将其和一个unnormalized Gaussian kernel N with width pσ进行卷积,来创建高分辨率部件置信图:
Part Association Fields
在每一个位置(i , j),PIF预测了一个置信度c,,两个个向量,两个宽度b。PAF表示为。
这有助于精确地解析附近关节点的联合位置,并将它们解析为不同的注释。
loss
虽然对于一个大的人来说,关节的定位误差可能是很小的,但是对于一个小的人来说,同样的绝对误差可能是一个很大的错误。作者使用L1-type loss。作者提高网络的能力,在SmoothL1或Laplace loss中注入尺度依赖。作者进行了比较。
理解了大概,具体细节要阅读源码。
Greedy Decoding