【Heatmap+offset】《Towards Accurate Multi-person Pose Estimation in the Wild》

在这里插入图片描述

CVPR-2017



1 Background and Motivation

Human pose estimation, defined as 2-D localization of human joints on the arms,legs,and key-points on torso and the face.

从本文作者的标题可以看出,motivation 很直接,冲着公共数据集的 accurate 去的,don’t say so much

in the wild 指的是场景更复杂,需要统筹人的检测和关键点的检测

2 Related Work

  • part-based models:Pictorial Structures

  • Single-Person Pose:在 MPII 和 FLIC 数据集上表现最好的是 stacked hourglass 方法

  • Top-Down Multi-Person Pose, in which a pose estimator is applied to the output of a bounding-box person detector

  • Bottom-Up Multi-Person Pose, in which keypoint proposals are grouped together into person instances

3 Advantages / Contributions

用热力图和 offset 的方式,配合区域内 voting 机制,实现 SOTA,比 2016 COCO keypoints challenge winner(CMU-Pose) 的效果还好很多

4 Method

在这里插入图片描述
Faster RCNN + ResNet-101 for person detection

heatmap + offset

OKS-NMS 代替 box-level IOU NMS

提出 keypoint-based confidence score estimator,re-score the detection based on the estimated keypoints

4.1 Person Box Detection

Faster RCNN + ResNet-101

配合 atrous convolution 来保持分辨率,按文中描述分辨率最低为 1/8,相当于只有三个 stage

4.2 Person Pose Estimation

用回归的方法,【DeepPose】《DeepPose:Human Pose Estimation via Deep Neural Networks》 直接回归难度有点大,且无法有效的解决重叠时一个 patch 中有多个关键点情况(比如下面的图,有很多肩膀,你最后肩膀回归在哪都说的过去,但是可能不是同一个人的了,这样就不行)

在这里插入图片描述

用分类的方法,也即热力图的方法,精度受限于 output features 的分辨率

作者结合分类和回归的方法,用热力图预测出大致的位置,回归方法预测出 offset 来精修 key-points

作者说这种灵感来源于 two-stage 的 object detection(在一阶段的基础上 refine),哈哈哈,天道有轮回,后续流行的 anchor-free 的 object detection 都有作者方法的影子,也即 heatmap+offset,例如,FCOS,CenterNetCornerNe

在这里插入图片描述

1)Image Cropping

保证输入 bbox 的 aspect ratio 是一样的,然受 resize 到 353×257,训练的时候 bbox 外扩 1~1.5倍随机(更多的 context 信息),evaluate 的时候 re-scale 1.25

2)Heatmap and Offset Prediction with CNN

输出通道数为 3K,K 是数据集关键点的个数,3 由 1 通道的热力图和 2 通道的 coordinate offset 构成

输出分辨率大小为原图的 1/8,然后双线性插值到输入大小 353×257(目前流行的做法是输出 1/4,GT 也弄成 1/4)

在这里插入图片描述

下面探讨下定位的形式

方式一:ideally delta function,热力图精准打击,无须 offset

在这里插入图片描述

f k ( x i ) = 1 f_k(x_i) = 1 fk(xi)=1 如果 k-th keypoint( k ∈ { 1 , . . . , K } k \in \{1,...,K\} k{1,...,K}) is located at position x i x_i xi i ∈ { 1 , . . . , N } i \in \{1,...,N\} i{1,...,N},N = 353×257 )

直接回归坐标(精准打击)是比较困难的,作者采用如下的范围攻击方式


方式二:unit-mass delta function,热力图范围攻击,配合 offset 精修(佐助和鸣人的变身术配合影风车)

在这里插入图片描述

热力图 h k ( x i ) = 1 h_k(x_i) = 1 hk(xi)=1 如果 ∣ ∣ x i − l k ∣ ∣ ≤ R ||x_i - l_k|| ≤ R xilkR,也即 point x i x_i xi 在 location l k l_k lk 的半径为 R R R 内都有效(实验中 R 为 25)

这种热力图形式就是二分类,在关键点范围内就是 1,否则就是 0(计算每个位置是关节点的概率)

热力图的表达形式我们清楚了,offset 形式为 F k ( x i ) = l k − x i F_k(x_i) = l_k - x_i Fk(xi)=lkxi

最终热力图+offset 聚合成 highly localized activation maps f k ( x i ) f_k(x_i) fk(xi) 的过程如下所示

在这里插入图片描述

聚合的公式表达如下

f k ( x i ) = ∑ j 1 π R 2 G ( x j + F k ( x j ) − x i ) h k ( x j ) f_k(x_i) = \sum_j \frac{1}{\pi R^2}G(x_j + F_k(x_j) - x_i)h_k(x_j) fk(xi)=jπR21G(xj+Fk(xj)xi)hk(xj)

  • G ( ⋅ ) G(\cdot) G() 是 bi-linear interpolation kernel
  • F k ( x i ) = l k − x i F_k(x_i) = l_k - x_i Fk(xi)=lkxi
  • i i i 表示区域内当前位置, j j j 表示区域内除了 i i i 之外点的位置(要参与投票的点)

假设网络学出来的 offset F k ( x j ) F_k(x_j) Fk(xj) 是完美的,那么 F k ( x j ) = l k − x j F_k(x_j) = l_k-x_j Fk(xj)=lkxj,上述公式中 x j + F k ( x j ) − x i x_j + F_k(x_j) - x_i xj+Fk(xj)xi 这一项就变成了 l k − x i l_k-x_i lkxi,每个位置都一样, ∑ \sum 后再平均也一样,配合热力图的结果,能得到最终的 fused activation maps

然而网络一般学习到的 offset 是有偏差的,也即 F k ( x j ) ≠ l k − x j F_k(x_j) ≠ l_k-x_j Fk(xj)=lkxj ,作者这里用 G G G 函数进行插值学出来该方向的一个 weight(G 的作用应该是不同方向 weight 不一样,预测出来的 offset 向量 F k ( x j ) F_k(x_j) Fk(xj) 和当前位置与 GT 点构成的向量 l k − x j l_k-x_j lkxj 的偏差越大,作用到 h k ( x j ) h_k(x_j) hk(xj)上的权重越小),然后和当前位置热力图的预测结果 h k ( x j ) h_k(x_j) hk(xj) 加权组合在一起(参考 Towards Accurate Multi-person Pose Estimation in the Wild 论文阅读 中的评论)

上述聚合的形式 is a form of Hough voting

each point j j j in the image crop grid(353×257)casts a vote with its estimate for the position of every key-point, with the vote being weighted by the probability that it is in the disk of influence of the corresponding keypoint(范围内的点都在发挥着自己的作用,来寻找最优的 key-point location,注意这里公式的形式哈,圈圈内的热力点都在做贡献,然后根据插值结果的权重加权在了一起

Hough voting 可以用下面的简单例子说明(来自 【OpenCV学习笔记】之霍夫变换(Hough Transform)

在这里插入图片描述
在这里插入图片描述
例如,检测图形中的直线,根据直线方程 y = a x + b y = ax + b y=ax+b 可知,确定斜率 a a a 和截距 b b b 就可以求得直线方程,原图像坐标空间的一个点,对应参数空间的一条线,两个点对应两条线,n 个点对应 n 条线,然后投票取最大值(重叠最多的点),确定交点 a 0 , b 0 a_0,b_0 a0,b0,进而得到直线的方程

上图以两个点的求解为例

3)Model Training

热力图分支(分类分支)采用的是 logistic losses(二分类), ∣ ∣ x i − l k ∣ ∣ ≤ R ||x_i-l_k||≤R xilkR 内 label 为 1,外 label 为 0(区别于现在的高斯 label)

offset 分支采用的是 Huber robust loss(类似于 smooth L1)
在这里插入图片描述参考 Huber robust error function

具体损失如下:
在这里插入图片描述
整体损失如下

在这里插入图片描述
L h ( θ ) L_h(\theta) Lh(θ) 表示 heatmap 分支的 loss

λ h \lambda_h λh λ o \lambda_o λo 分别为 4 和 1,是加权的权重

4)Pose Rescoring

在这里插入图片描述
每张热力图中相应最高的点的 score 求和取平均,得到 score,来评估关键点的质量

关于这点作者后面实验没有进行 ablation,可惜了

5)OKS-Based Non Maximum Suppression

检测人时,用到 NMS 后处理,根据 IoU 来抑制重叠度较高的框

作者在 IoU-NMS 的基础上,对 pose estimation 的最终结果还进行了一下 OKS-Based NMS——measure overlap using the object keypoint similarity(OKS) for two candidate pose detection!

5 Experiments

5.1 Datasets

  • MS COCO
  • MS COCO+internal

5.2 COCO Keypoints Detection State-of-the-Art

在这里插入图片描述

下面是展示的部分例子,给小的假人也标出来了是真的搞笑

在这里插入图片描述
在这里插入图片描述

5.3 Ablation Study:

1)Box Detection Module

在这里插入图片描述
两个检测人的模型在 COCO 数据集上的 AP 为

0.466 and 0.500 for mini-val
0.456 and 0.487 for test-dev

人检测器的质量还是有一定影响的,但是加了 GT 后 AP 也才 70(我是三年后说的这句话),关键点检测的算法还有一定的提升空间

PS:测试人形检测器对关键点检测影响大不大时,可以用 GT 人来测关键点检测的 AP


2)Pose Estimation Module

对 backbone 和 input size 进行了消融

在这里插入图片描述

5.4 OKS-Based Non Maximum Suppression

在这里插入图片描述
person box detector 的 IoU-NMS 阈值设置为了 0.6

6 Conclusion

  • COCO,17 keypoints(12 body joints and 5 face landmarks)
  • Top-Down 型式的 human pose estimation 和 object detection 中的 two-stage 类似,第一阶段检测人,第二阶段在第一阶段的基础上检测关键点
  • Huber robust loss 类似于 smooth L1
  • Pose Rescoring 来评估关键点的检测质量
  • 测试人形检测器对关键点检测影响大不大时,可以用 GT 人来测关键点检测的 AP
  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: tf-pose-estimation是一种基于TensorFlow框架的姿势估计算法,用于从图像或视频中提取人体关节点的位置。下面是对tf-pose-estimation的代码解析。 首先,该代码库使用了一个经过预训练的深度学习模型,该模型是通过大量的人体姿势数据进行训练得到的。该模型使用CNN(卷积神经网络)来提取图像特征,并使用模型的输出来预测每个关节点的位置。 代码库的主要文件是pose_estimation.py。在这个文件中,首先加载了预训练模型,并对输入图像进行预处理。然后,将预处理后的图像输入到模型中进行前向传播,得到每个关节点的位置估计结果。 在pose_estimation.py中,还定义了一些辅助函数来处理图像、绘制关节点、计算姿势距离等操作。这些函数包括骨骼连线、关节点索引等。 此外,tf-pose-estimation还提供了一个命令行接口,允许用户从图像或视频中运行姿势估计算法。通过命令行接口,用户可以指定输入图像/视频的路径,并选择是否将结果可视化或保存到文件中。 代码中还包含了一些示例文件,用于演示如何使用tf-pose-estimation进行人体姿势估计,例如video.py、webcam.py等。 总的来说,tf-pose-estimation是一个基于TensorFlow的代码库,用于姿势估计,它使用预训练的深度学习模型从图像或视频中提取人体关节点的位置。通过提供的命令行接口和示例文件,用户可以方便地使用此代码库进行人体姿势估计任务。 ### 回答2: tf-pose-estimation是一个基于TensorFlow的开源姿势估计项目。它可以通过分析图像或视频中的人体关键点来估计人体的姿势。 这个代码库提供了一些基本的功能,包括加载预训练的姿势估计模型,使用模型对输入图像进行预测,以及绘制预测结果。它使用了OpenPose方法,该方法通过将人体姿势估计问题转化为一个人体关键点检测问题来解决。 在代码解析中,首先会加载预训练模型,这个模型通常是由大量标记好的人体关键点图像数据训练得到的。然后,代码会读取输入图像或视频,并使用加载的模型对其进行预测。预测结果包括人体关键点的坐标和置信度。最后,代码会根据预测结果将人体关键点绘制在图像上,以便用户可以直观地看到估计的人体姿势。 该代码库在计算机视觉、机器学习和姿势估计等领域具有广泛应用。它可以用于人体动作分析、虚拟现实、人机交互等应用场景。用户可以根据自己的需求进行调整和扩展,以实现更复杂的功能。 总之,tf-pose-estimation是一个基于TensorFlow的开源姿势估计项目,通过使用预训练模型和OpenPose方法,能够对输入的图像或视频进行人体姿势估计,并绘制出人体关键点。它在多个领域都有广泛的应用潜力。 ### 回答3: tf-pose-estimation 是一个基于 TensorFlow 开发的人体姿态估计库。它使用深度学习技术,通过输入一张包含人体的图像,能够输出图像中人体的姿态信息,包括各个关节点的位置、关节之间的关系以及姿态的可见性。 tf-pose-estimation 的代码结构主要涉及以下几个部分: 1. 数据预处理:输入图像首先经过预处理,包括图像的缩放、色彩空间的转换等。这一步骤的目的是将图像转换为神经网络模型能够处理的格式。 2. 网络模型搭建:tf-pose-estimation 使用了一种称为 OpenPose 的网络模型来进行姿态估计。这个网络模型由卷积层、池化层、上采样层、残差模块等组成。通过这些层的堆叠和连接,网络能够从输入图像中提取出关键点的位置信息。 3. 损失函数定义:在训练阶段,需要定义一个损失函数来评估网络模型输出的姿态和真实姿态之间的差距。tf-pose-estimation 使用了一个多通道的 Heatmap 来表示关键点的位置,通过计算预测 Heatmap 和真实 Heatmap 之间的均方误差作为损失函数。 4. 训练和推理:在训练阶段,根据预先标注好的姿态数据,通过反向传播算法不断调整网络参数,使得模型输出的姿态与真实姿态更加接近。在推理阶段,给定一张图像,通过前向传播算法,将图像输入网络模型,得到关键点的位置信息。 5. 后处理:推理得到的关键点位置信息会经过一定的后处理,用于提取骨骼连接关系并进行姿态的可视化。这个后处理过程可以根据应用需求进行自定义调整。 总的来说,tf-pose-estimation 的代码解析主要包括数据预处理、网络模型搭建、损失函数定义、训练和推理以及后处理等步骤。通过这些步骤,tf-pose-estimation 能够准确地估计图像中人体的姿态信息,具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值