人体2D关键点检测--文章（2020-2017）

最新推荐文章于 2024-08-18 11:14:15 发布

3TV

最新推荐文章于 2024-08-18 11:14:15 发布

阅读量2.5k

点赞数

分类专栏：一起从0开始深度学习人体关键点检测

本文链接：https://blog.csdn.net/lyx_323/article/details/107459229

版权

一起从0开始深度学习同时被 2 个专栏收录

15 篇文章

订阅专栏

人体关键点检测

7 篇文章

订阅专栏

本文综述了2017年至2020年在2D人体姿态估计领域的研究进展，涵盖了快速准确的人体姿态估计、单网络全身姿态估计、空间连接网络、级联特征聚合、基于空间上下文信息的姿态估计等多个前沿方法。这些方法在速度和精度上超越了前代技术，尤其在多人场景和复杂遮挡条件下表现优异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2D关键点检测

2020

Toward fast and accurate human pose estimation via soft-gated skip connections（2020，MPII最优）

2019

Single-Network Whole-Body Pose Estimation（ICCV2019，自下而上）

本文提出了第一个二维全身姿态估计的单网络方法，它要求同时定位身体、脸、手和脚的关键点。方法在OpenPose的基础上有了很大的改进，OpenPose是目前为止唯一能够在速度和全局精度方面进行全身姿态估计的方法。与OpenPose不同的是，本文的方法不需要为每只手和每一张脸的候选对象运行一个额外的网络，这使得它在多人场景中运行速度大大提高。速度: 在测试时，无论检测到多少人，本文的单网络方法都提供了一个恒定的实时推断，大约比最先进的(OpenPose)的n人图像快n倍。准确性: 方法也比之前的OpenPose产生了更高的准确性，特别是在脸部和手部关键点检测上，更适用于遮挡、模糊和低分辨率的脸部和手部。

Spatial Shortcut Network for Human Pose Estimation（2019）

现有的基于姿态估计的方式，是通过逐像素分类实现的，这种方式是考虑不到大范围的空间信息的。举例来说：由于肘关节的外观与膝关节非常相似，对于一个感受野仅能覆盖肘关节本身的小特征提取器，很难将两者区分开来。但如果感受野能同时看到附近的手腕或肩膀，那么将其归类为肘部就容易得多。在涉及姿态估计的方法中，需要抑制非主要人体部位的检测。对卷积网络而言，只要将网络变的更深，或者增大卷积核，就能够促进空间信息流动，我们就可以增加最终特征的感受野。感受野增加了，上述提到的问题能够被较好的解决。然而不论是大卷积核还是深网络，这对计算和训练都带来了较大的挑战。为了空间信息能够低成本的流动，本文提出了一种针对于姿态估计任务的空间连接网络，使信息在空间上的流动更容易。本文提出的网络为spatial shortcut network (SSN)。该网络将特征映射移动和注意机制结合在一个称为特征移动模块feature shifting module(FSM)中。该模块在参数数量和计算成本上都与普通卷积层一样轻量，并可以插入到网络的任何部分来补充空间信息。

Cascade Feature Aggregation for Human Pose Estimation(CVPR2019)

目前这篇文章是2019年mpll数据集结果达到93.3%那篇，相比其他论文，这篇文章达到这么高的评分，主要有三点，一是，作者把stage2到stageN的heatmap的平均值作为最后输出；二是作者通过实验得出stage1把resnet101作为backbone，后面的stage采用resnet50作为backbone效果最佳；三是作者引入了AI Challenger的数据集来扩充训练数据。

Human Pose Estimation with Spatial Contextual Information(CVPR2019)

目前大多数网络以多阶段的方式进行训练并加以优化精细。在这个出发点上，作者提出了两个简单但有效的模块，即Cascade Prediction Fusion(CPF)网络用来预测关键点和Pose Graph Neural Network(PGNN), 用来对上级预测的关键点进行修正。

2018

PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model(google, CVPR2018)

Multi-Scale Structure-Aware Network for Human Pose Estimation（ECCV2018）

Deeply Learned Compositional Models for Human Pose Estimation(ECCV2018）

这篇文章利用深度神经网络来学习人体的组成。是具有分层组成架构和自下而上/自上而下的推理阶段的新型网络。

Multi-Context Attention for Human Pose Estimation(2018)

这篇文章整合多内容信息注意力机制(multi-context attention mechanism)到CNN网络，得到人体姿态估计 end-to-end 框架.采用堆积沙漏网络(stacked hourglass networks) 生成不同分辨率特征的注意力图(attention maps)，不同分辨率特征对应着不同的语义.并同时结合了整体注意力模型和肢体部分注意力模型，整体注意力模型针对的是整体人体的全局一致性，部分注意力模型针对不同身体部分的详细描述. 因此，能够处理从局部显著区域到全局语义空间的不同粒度内容.另外，设计了新颖的沙漏残差单元(Hourglass Residual Units, HRUs)，增加网络的接受野. HRUs 扩展了带分支的残差单元，分支的 filters 具有较大接受野；利用 HRUs 可以学习得到不同尺度的特征。

A Cascaded Inception of Inception Network with Attention Modulated Feature Fusion for Human Pose Estimation(2018)

本文提出了三种新技术。为人类姿势巧妙地利用不同级别的特征进行估计。首先，初始化（IOI）块是旨在强调低级特征。其次，根据人体关节信息提出了注意机制来调整关节的重要性。第三，提出了一种级联网络来顺序定位关节强制从独立部件的关节传递消息像头部和躯干到手腕或脚踝等远程关节。

2017

Learning Feature Pyramids for Human Pose Estimation （ICCV2017）

本文主要关注人体部件中的尺度问题，这种尺度变化主要发生在相机拍摄视角变化，设计了 Pyramid Residual Module (PRMs) 来增强 CNN 网络对尺度信息的提取能力。同时发现DCNNs多输入或者多输出层的初始化问题，以及发现在一些场景中激活变化累积是由identity mapping造成的，对于这两个问题作者分别提出解决的方法。