单阶段多人 2D 人体估计算法——KAPAO

Lemon_Yam

已于 2022-11-09 14:15:13 修改

阅读量5k

点赞数 12

分类专栏：深度学习文章标签：计算机视觉深度学习 pytorch 人体姿态估计

于 2022-05-22 15:04:26 首次发布

本文链接：https://blog.csdn.net/steven_ysh/article/details/124079546

版权

深度学习专栏收录该内容

20 篇文章 17 订阅

订阅专栏

😸KAPAO（ECCV2022）的主要贡献：

提出了一种新的姿态对象（pose object）表示方法，其通过增加一组与对象相关的关键点来扩展传统的对象表示方法，在辅助实验中展示了如何使用多任务损失来学习姿态对象表示。
提出了一种单阶段多人人体姿态估计的新方法，该方法不使用热图且同时检测关键点对象（keypoint objects）和人体姿态对象，然后将两者的检测融合起来从而利用这两者的优点。与之前的 SOTA 方法（都使用热图）相比，当不使用 TTA 时，所提出的无热图方法在 Microsoft COCO Keypoints 基准测试上明显更快、更准确。

人体姿态估计简述

😸人体姿态估计根据估计的关节坐标维度分为 2D 姿态估计和 3D 姿态估计

2D 人体姿态估计的目标是定位并识别出人体的关键点 $(x, y)$ ，这些关键点按照关节顺序相连，就可以得到人体的骨架
3D 姿态估计的目标是从图像或视频中估计人体基于某点的人体三维关节坐标 $(x, y, z)$ ，一般以人体的臀部关节为基点

😸双阶段的人体姿态估计总的来说有两种方式

自顶向下：先检测出人的位置，然后再根据检测出的位置为每个人做姿态估计。该方法更加符合人的思维，准确率相对较高，但推理速度较慢
自底向上：先检测出所有的人体关键点，再通过聚类将这些节点归为每一个人。该方法推理速度较快，但准确率不如前者。下图为自底向上方法的示意图

😼单阶段的人体姿态估计是通过网络的单次前向传递之后直接预测人体姿态估计，虽然目前主流算法多采用双阶段方法，且单阶段的精度不如双阶段，但单阶段方法往往在拥挤场景中会表现得更好

😸热图法是目前人体姿态估计中最常用的方法之一，其通过以下步骤预测关键点

在目标关键点坐标上以具有小方差的 2D 高斯函数来生成目标热图
使用深度卷积神经网络对输入图像上的目标热图进行回归
根据预测热图中的概率最大值来进行关键点预测

🙀但是热图法也存在着明显的缺点

速度问题：大型热图需要通过大量计算来产生，也需要特殊的后处理步骤来优化关键点预测，这会降低推理速度
精度问题：存在量化误差，关键点预测的精度本质上受到热图分辨率的限制；当同类别的两个关键点彼此比较接近时，重叠的热图信号可能会让它们被误认为是同一个关键点

KAPAO

🙀鉴于热图存在的明显缺点，来自加拿大滑铁卢大学的研究者提出一种全新的单阶段 2D 多人关键点和姿态检测方法 KAPAO。该方法以 YOLOv5 为基础，不使用热图，并包含一个高效的网络设计。其同时检测人体姿态对象和关键点对象，并使用简单的匹配算法将这两者融合起来。在测试时，使用一块 TITAN Xp GPU 实时运算，720p 视频的推理速度可达每秒 35 帧，1080p 的视频可达每秒 20 帧。在不使用测试时增强（TTA）时 KAPAO 比此前的单阶段方法（如 DEKR 和 HigherHRNet）更快、更准确。
KAPAO 与其他算法对比

网络结构

KAPAO 算法整体架构

KAPAO 将图片输入 YOLO-style 的特征提取器（使用 YOLOv5，其中包含了CSP 的 bottlenecks 和特征金字塔架构），从而得到四种类型大小的 output grids $\hat{G}^{s}$ 。其中，上标 $s$ 的取值为 8、16、32、64。每种 grid 使用不同的 anchor，较小的 grid 感受野比较大，可预测较大物体；而较大 grid 感受野较小，更适合预测较小物体。
经过这组 grid 可得到预测关键点对象 $\hat{O}^k$ 和姿态对象 $\hat{O}^p$ ，而 $\hat{O}^k$ 和 $\hat{O}^p$ 会有冗余现象，可通过非极大值抑制处理得到候选姿态对象 $\hat{O}^{p^{'}}$ 和关键点对象 $\hat{O}^{k^{'}}$
最后使用匹配算法 $\varphi$ 将 $\hat{O}^{p^{'}}$ 和 $\hat{O}^{k^{'}}$ 融合为最后的姿态估计结果 $\hat{P}$

❗注：姿态对象与关键点对象既有关联，又有区别

Grid cell 输出

每个 cell 的输出由存在物体概率 $p_0$ 、边界框 $t_x, t_y, t_w, t_h)$ 、 $K + 1$ 个类别（ $c_1$ 判断是否为人，即用于姿态对象，其余用来确定是哪类关节点）、姿态对象的 $K$ 类关键点坐标（每个关键点包含 2 个值，COCO 数据集中为 17），故输出通道为 $1 + 4 + (K + 1) + 2 \times K = 3 K + 6$
当为姿态对象时（上图蓝色部分）， $c_1$ 的值为 1，输出的所有值都需要计算损失；由于关键点对象包含在一个框中，该框的中心即为关键点对象的位置，所以若为关键点对象（上图红色部分）则后面姿态对象的关键点坐标值不需要计算损失，当没有物体时（上图绿框）， $p_0$ 为 0，后面所有值都不需要计算损失

关键点对象和姿态对象的理解

关键点对象并不包含任何关于人或姿态的信息，所以在使用自底向上方法来做姿态估计时需要将这些关键点解析成人体姿态；而姿态对象允许神经网络学习这些关键点的空间关系，从而可以直接用于姿态估计
从上图可以看出，关键点对象存在于姿态对象的一个子空间中。因此，KAPAO 将网络设计为通过一个共享的 network head 同时检测出姿态对象和关键点对象，从而最小化计算开销
论文中提出越精确的关键点对象融合到姿态检测中，越能提高人体姿态预测的精度，个人认为关键点对象在某种意义上可能为姿态对象的另一种模态，通过模态的融合，从而提高精度

边界框和关键点计算

边界框 $(\hat{t}_x, \hat{t}_y, \hat{t}_w, \hat{t}_h)$ 计算

$\begin{aligned} & \hat{t}_x = 2\sigma(\hat{t}_x^{'}) - 0.5 \\ & \hat{t}_y = 2\sigma(\hat{t}_y^{'}) - 0.5 \\ & \hat{t}_w = \frac{A_w}{s}(2\sigma(\hat{t}_w^{'}))^2 \\ & \hat{t}_h = \frac{A_h}{s}(2\sigma(\hat{t}_h^{'}))^2 \end{aligned}$

✍️其中 $A_w$ 和 $A_h$ 分别为锚框的宽和高， $s$ 的值根据对应的 grid 分为 8、16、32 或 64， $\sigma$ 为 sigmoid 函数， $\hat{t}_{*}^{'}$ 为边界框的中间值

关键点坐标计算

$\begin{aligned} & \hat{v}_{xk} = \frac{A_w}{s}(4\sigma(\hat{v}_{xk}^{'})-2) \\ & \hat{v}_{yk} = \frac{A_w}{s}(4\sigma(\hat{v}_{yk}^{'})-2) \end{aligned}$

✍️其中， $\sigma$ 用来限制关键点的可能取值， $\hat{v}_{*}^{'}$ 为关键点中间值

损失函数

KAPAO 使用多任务损失函数 $L(\hat{G}, G)$ 学习物体存在概率 $\hat{p}_o(L_{obj})$ 、边界框 $\hat{t}(L_{box})$ 、类别分数 $\hat{c}(L_{cls})$ 和关键点对象 $\hat{v}(L_{kps})$ 。其中各个任务损失计算如下：

$\begin{aligned} & L_{obj} = \sum_{s}\frac{w_s}{n(G^s)}\sum_{G^s}BCE(\hat{p}_o, p_o \cdot IoU(\hat{t}, t)) \\ & L_{box} = \sum_s \frac{1}{n(O \in G^s)}\sum_{O \in G^s} 1-IoU(\hat{t}, t) \\ & L_{cls} = \sum_s \frac{1}{n(O \in G^s)}\sum_{O \in G^s}BCE(\hat{c}, c) \\ & L_{kps} = \sum_s \frac{1}{n(O^p \in G^s)}\sum_{O^p \in G^s}\sum_{k=1}^K \delta(v_k > 0) \parallel \hat{v}_k - v_k \parallel_2 \end{aligned}$

✍️其中， $w_s$ 为 grid 的权值， $n (*)$ 表示个数， $BCE$ 为二元交叉熵， $I o U$ 使用 $C I o U$ ， $\parallel * \parallel_2$ 为欧式距离

总损失通过 batch size $N_b$ 和 4 个超参数得出

$N_b (\lambda_{obj}L_{obj} + \lambda_{box}L_{box} + \lambda_{cls}L_{cls} + \lambda_{kps}L_{kps})$

推理

边界框 $\hat{t}$ 和关键点 $\hat{v}$ 映射回原始图像

$\begin{aligned} & \hat{b} = s(\hat{t} + [i, j, 0, 0]) \\ & \hat{z}_k = s(\hat{v}_k + [i, j]) \end{aligned}$

当置信度 $\hat{p}_o \cdot max(\hat{C})$ 大于阈值 $\tau_{cp}$ 且 $max(\hat{C})=1$ 时， $\hat{G}_{i, j, a}^s$ 表示姿态对象检测 $\hat{O}^p$ 。同理，如果 $\hat{p}_o \cdot max(\hat{C}) \gt \tau_{ck}$ 且 $max(\hat{C}) \gt 1$ ，则 $\hat{G}_{i, j, a}^s$ 表示关键点对象检测 $\hat{O}^k$ ，其中关键点对象类为 $max(\hat{C})-1$ （第一类为姿态对象，所以减去 1）
$NMS$ 通过 $I o U$ 的阈值 $\tau_{bp}$ 和 $\tau_{bk}$ 来去除一些姿态对象和关键点对象

$\begin{aligned} & \hat{O}^{p^{'}} = NMS(\hat{O}^p, \tau_{bp}) \\ & \hat{O}^{k^{'}} = NMS(\hat{O}^k, \tau_{bk}) \end{aligned}$

利用 $\tau_{fd}$ 将候选关键点对象与姿态对象融合得到人体姿态估计 $\hat{P}=\{\hat{P}_i \in R^{K \times 3}\}(i \in \{1 \cdots n(\hat{O}^p{'})\})$ 。为了促进关键点与姿态的正确匹配，只将关键点目标与置信度 $\hat{p}_o \cdot max(\hat{c}) \gt \tau_{fc}$ 的姿态目标融合

$\hat{P} = \varphi(\hat{O}^{p^{'}}, \hat{O}^{k^{'}}, \tau_{fd}, \tau_{fc})$

融合算法

当候选姿态对象大于 0 时则开始筛选相关的候选姿态对象，若为 0 则返回空
先初始化姿态对象和姿态的置信度为全 0
遍历候选姿态对象，获取其置信度 $\zeta_i = \hat{O}_{p_0}^p \cdot max(\hat{O}_c^p)$ ，并遍历每个姿态对象的各个关键点，获取其坐标 $(\hat{O}_{x_k}^p, \hat{O}_{y_k}^p, 0)$
将置信度 $\zeta_i \gt \tau_{fc}$ 的姿态对象保存到 $\hat{P}^*$
若 $\hat{P}^*$ 和候选关键点对象 $\hat{O}^{k^{'}}$ 均不为空，则开始融合
遍历候选关键点对象，获取其概率最大值的位置（对应不同的关键点类型）、关键点对象置信度 $C_k$
计算前面姿态对象中的关键点和对应关键点对象的欧式距离 $d_i$ ，获取距离最小的下标 $m$
若这个最小距离 $d_m$ 小于 $\tau_fd$ 且姿态对象的置信度小于关键点对象的置信度，则将对应坐标和置信度替换为关键点对象的