单阶段人体姿态估计解决方案

三个刺客

已于 2022-04-25 22:51:15 修改

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：深度学习

于 2022-04-25 22:41:17 首次发布

本文链接：https://blog.csdn.net/mxh3600/article/details/124415019

版权

深度学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

前言

最近在看姿态估计的论文，发现这篇论文是讲解单阶段人体姿态估计的，因此和之前的2D和3D姿态估计做一下对比

论文地址：http://openaccess.thecvf.com/content_ICCV_2019/papers/Nie_Single-Stage_Multi-Person_Pose_Machines_ICCV_2019_paper.pdf

一：算法分析

对单张图像中的多个人体进行姿态估计是一个非常有挑战性的问题，目前主流算法多采取双阶段的方案，其中一类是采用自顶而下的策略：第一阶段用目标检测器将图像中的多个人体检测出来，第二阶段对每个人体分别预测多个人体关键点；另一类是采用自下而上的策略：第一阶段将图像中的所有人体关键点都检测出来，第二阶段将这些检测到的关键点进行匹配归类到多个人体上。以上方法均存在的一个问题是耗时且无法发挥CNN网络端到端可训练的优势。

从这一问题出发，本文首次提出了单阶段的解决方案，也即只需要将图像输入网络一次就可以得到逐个人体的关键点。作者在多个数据集上进行了公开评测，实验结果表明，本文提出的单阶段解决方案在取得速度优势的同时，也取得了毫不逊色于双阶段方法的检测率。此外，由于框架简单，该方法可以直接从2D图像扩展到3D图像的人体姿态估计。下图展示了本文方法和已有主流方法的直观对比。

二：思路分析

CNN网络的任务就是回归出root joint以及这些每个关键点到root joint的偏差量就可以完成人体姿态估计了。由于要回归距离root joint较远的关键点的偏差量较为困难，为了简化这一任务，作者提出了Hierarchical SPR的策略，其核心思想是先计算距离root joint较近的几个关键点的偏差量，再以这几个关键点为下一层的root joint，计算该root joint周围的几个关键点的偏差量，逐层向外围推进，直到计算出所有关键点的偏差量。

现有的多人人体姿态估计方法，不管是TD还是BU，往往都需要两步走，这篇论文提出了single-stage的方法，论文提出了Single-stage multi-person Pose Machine (SPM),来简化和提高多人姿态估计的性能。这篇文章有很多思想和centernet是共性的。

三：网络的整体结构

作者使用Associative Embedding中的Hourglass作为骨架网络，预测两个东西。一个是root joints的置信图，相当于预测每个人的中心在哪，另一个预测的是关节点偏移量的图，这里对每个root节点周围半径为r的圆内的每个点进行K张图的预测，预测的是这个点出发到各个关节点的offset除以一个归一化量，这样取root图中local max的点作为root，就可以算出其各个关节点的位置，所以这是一个single-stage的网络。但是，有些关节点与root会比较远，直接预测offset不太准，作者进行了改进：作者把关节点分为几个层次，root joint为第一层，脖子点、两个肩膀点、两个臀部点为第二层，头部点、手肘点、膝盖点为第三层，手腕点、脚踝点为第四层，然后在回归offset的时候，第一层回归点到第二层的offset，第二层回归到第三层的offset，以此类推，这样回归的offset都是short的，比较准确，网络学习起来也更容易。在COCO上的mAP为66.9%，不高不低吧，很多细节还能改进，这篇文章root+offset的single-stage的思想是值得去思考的。

四：三维姿态估计面临的问题

现有的多视角三维人体姿态估计算法大多基于两阶段模型：第一阶段从图像中估计二维的人体姿态，第二阶段利用相机的参数信息，将二维姿态提升为三维。深度学习模型不断增强的表征能力在很大程度上推动了二维姿态估计的发展，从而也带来三维误差的不断下降。但是三维姿态估计仍然面临以下几个问题：

1) 二维姿态估计不准确：在真实世界的图像中，由于存在遮挡、自遮挡以及运动模糊等问题，二维姿态估计的结果并不完美。

2) 三维姿态估计却严重依赖于二维姿态的准确度：由于三维姿态是从二维姿态中估计出来的，并且不会利用到图像信息，因此二维姿态的准确度会在很大程度上影响三维姿态估计的结果。

3) 从二维姿态恢复三维的方法大致可以分为两类：第一类使用三角化方法（Triangulation），它独立地估计每一个关键节点的三维位置。因为该方法不会利用到其他节点的信息，因此对于二维位置的精确度要求更高；第二类方法是基于图模型的方法（Pictorial Structure Model，PSM），它通过利用节点之间的关联信息（比如肢体长度等）使得当前节点的估计能够受益于相邻的节点。但该方法的缺点是需要对三维空间进行离散化，从而引入了不小的量化误差。

总结

1、人体姿态估计领域常用的基础网络为hourglass网络（本文也不例外），由于网络结构本身所带来的计算量较大导致算法耗时难尽人意。目前大部分探索集中于双阶段的解决方案，本文在人体姿态估计领域突破了传统双阶段的算法框架，首次提出了单阶段的解决方案，思路新颖独特，方法简洁且可扩展性强。在极大降低算法耗时的同时，并没有以性能损失为牺牲，为人体姿态估计领域提供一个新的baseline，期待在这一方向上出现更多的精彩突破。

2、关键点检测也是当前anchor-free目标检测领域的关注热点，而本文中的关键点到root point的偏差量预测也类似于目标检测中宽和高的预测。从两个任务的共性入手，应该还有很多值得探索的问题和新的发现

参考

ICCV 2019 | SPM：单阶段人体姿态估计解决方案_极市平台的博客-CSDN博客

https://zhuanlan.zhihu.com/p/187598353

三个刺客

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
单阶段人体姿态估计解决方案

前言最近在看姿态估计的论文，发现这篇论文是讲解单阶段人体姿态估计的，因此和之前的2D和3D姿态估计做一下对比论文地址：http://openaccess.thecvf.com/content_ICCV_2019/papers/Nie_Single-Stage_Multi-Person_Pose_Machines_ICCV_2019_paper.pdf一：算法分析对单张图像中的多个人体进行姿态估计是一个非常有挑战性的问题，目前主流算法多采取双阶段的方案，其中一类是采用自顶而下的策略：第一阶段用
复制链接

扫一扫