六种人体姿态估计的深度学习模型和代码总结

最新推荐文章于 2022-10-24 22:07:48 发布

blog_1103

最新推荐文章于 2022-10-24 22:07:48 发布

阅读量5.3k

点赞数 10

分类专栏：深度学习

深度学习专栏收录该内容

33 篇文章 5 订阅

订阅专栏

六种人体姿态估计的深度学习模型和代码总结

姿态估计的目标是在RGB图像或视频中描绘出人体的形状，这是一种多方面任务，其中包含了目标检测、姿态估计、分割等等。有些需要在非水平表面进行定位的应用可能也会用到姿态估计，例如图形、增强现实或者人机交互。姿态估计同样包含许多基于3D物体的辨认。

在这篇文章中，Model Zoo的作者汇总了几种开源的深度学习模型以及针对姿态估计的代码，论智对其进行了编译，如有遗漏请在评论中补充。

1.DensePose

六种人体姿态估计的深度学习模型和代码总结

创作这篇文章的初衷就来源于Facebook研究所的DensePose，上周，Facebook公布了这一框架的代码、模型和数据集，同时发布了DensePose-COCO，这是一个为了估计人类姿态的大型真实数据集，其中包括了对5万张COCO图像手动标注的由图像到表面的对应。这对深度学习研究者来说是非常详细的资源，它对姿态估计、身体部位分割等任务提供了良好的数据源。

DensePose的论文中提出了DensePose-RCNN，这是Mask-RCNN的一种变体，可以以每秒多帧的速度在每个人体区域内密集地回归特定部位的UV坐标。它基于一种能将图像像素通过卷积网络映射到密集网格的系统——DenseReg。模型的目标是决定每个像素在表面的位置以及它所在部分相对应的2D参数。

DensePose借用了Mask-RCNN的架构，同时带有Feature Pyramid Network（FPN）的特征，以及ROI-Align池化。除此之外，他们在ROI池化的顶层搭建了一个全卷积网络。想了解DensePose更多的技术细节，请阅读原论文。

论文地址：arxiv.org/abs/1802.00434

GitHub地址：github.com/facebookresearch/Densepose

数据集地址：github.com/facebookresearch/DensePose/blob/master/INSTALL.md#fetch-densepose-data

2.OpenPose

六种人体姿态估计的深度学习模型和代码总结

OpenPose是由卡内基梅隆大学认知计算研究室提出的一种对多人身体、面部和手部形态进行实时估计的框架。

OpenPose同时提供2D和3D的多人关键点检测，同时还有针对估计具体区域参数的校准工具箱。OpenPose可接受的输入有很多种，可以是图片、视频、网络摄像头等。同样，它的输出也是多种多样，可以是PNG、JPG、AVI，也可以是JSON、XML和YML。输入和输出的参数同样可以针对不同需要进行调整。

OpenPose提供C++API，以及可以在CPU和GPU上工作（包括可与AMD显卡兼容的版本）。

GitHub地址：github.com/CMU-Perceptual-Computing-Lab/openpose

数据集地址：domedb.perception.cs.cmu.edu/