发表于arxiv, 一个bottom-up的方法, 用来预测单张图片中多个人体的关节点位置, 已开源
arxiv地址: https://arxiv.org/abs/1903.06593
github地址: https://github.com/vita-epfl/openpifpaf
contribution
- bottom-up, box-free, end-to-end cnn architecture
- 提出
Part Intensity Field (PIF)
用来定位人体关节点位置 - 提出
Part Association Field (PAF)
用来确定关节点之间的连接
主要内容
通过预测图片中每个位置的Pif
信息, 来确定图片上的位置是否是人体关节点位置; 并通过paf
信息把同属于同一个人的人体关节点连接起来, 这样就可以 1) 预测出图片上所有人的关节点 2) 把属于同一个人的人体关节点连接起来. 在 COCO keypoint task 上达到了state-of-the-art, 打败了目前所有的bottom-up方法, 按照文章的说法, 比openpose提高了大约AP/AR
12个点左右.
Pif label
Pif label
是confidence map
和regression map
的结合, 最早出现在Google发表在CVPR 2017的"Towards Accurate Multi-person Pose Estimation in the Wild". 在Google的这篇文章中, Pif
label只有三个值: confidence score, x offset, y offset. PifPaf
文章对这个Pif label
进行了扩充, 增加了额外的两个选项: spread b, scale. 具体来说, 就是对于输出的PIF label,是一个(b, h, w, 17, 5)的输出, 17代表需要预测的关键点个数, 5表示: { p c i , j , p x i , j , p y i , j , p b i , j , p σ i , j } \{p^{i,j}_{c}, p^{i,j}_{x}, p^{i,j}_{y}, p^{i,j}_{b}, p^{i,j}_{\sigma} \} {
pci,j,pxi,j,pyi,j,pbi,j,pσi,j}. 也即是, PIF
会预测出每个输出channel上每个位置的 { p c i , j , p x i , j , p y i , j , p b i , j , p σ i , j } \{p^{i,j}_{c}, p^{i,j}_{x}, p^{i,j}_{y}, p^{i,j}_{b}, p^{i,j}_{\sigma} \} {
pci,j,pxi,j,pyi,j,pbi,j,pσi,j}, 其中 p c i , j p^{i,j}_{c} pci,j表示该点的confidence, p x i , j p^{i,j}_{x} pxi,j和 p y i