引言:这一篇论文是关于人体姿态的,更准确地说:应该是人体关键点检测的(也有学者称关节点),原文主要论述这篇文章是基于目前最火的姿态估计网络OpenPOSE实现的基础上,加以优化,使网络的运行速度以及精度上都有所提高。
论文地址:https://arxiv.org/pdf/1811.12004.pdf
1.introduction
多人姿态估计是一项非常重要的任务,可以应用于多个领域,例如:动作识别,动态捕获,运动等,姿态估计的任务是预测在图像中每一个人的姿态骨架,骨架包括关键点(关节点):脚裸、膝盖、臀部、肘关节等。
在卷积神经网络CNN的助力下,人体姿态估计的精度大大提高了许多,然而关于紧凑且有效的姿态估计方法的研究甚少。作者9在手机上展示了一个简单的Mask- RCNN 关键点检测器,达到10FPS每秒,然而并没有提供实现的细节和精度的特征。
在我们的工作中,我们优化了最流行的人体姿态估计方法OpenPose,并且展示了如何将CNN应用于姿态估计的任务中。我们运行的结果如下:
1》28 fps on mini PC Intel® NUC
2》26 fps on a usual CPU without the need of a graphic card
2.related work 相关工作
多人姿态估计存在的问题可以使用两种方法解决。
第一是自上而下:首先使用人体检测器,然后在被检测到的人使用姿态估计算法,因此姿态估计可以划分为两个子问题,可利用这两领域的最新成果分别解决。预测的速度绝大多数依赖于在图像中检测到的人的个数。
第二种方法称为自底向上。首先检测到在图像中的所有关键点,然后按照人工实例对其进行分组,这种方法通常比第一种更快,因为找到依次关键点就不会再重复为每个人姿态估计。
作者11提出了最快的自底向上的方法,在GTX1080Ti显卡上可以达到23FPS,如果图像中有三个人,如果有20人,将会达到15FPS。我们的方法是自底向上,它几乎和人数无关。。
3.分析OpenPose
正如所有自底向上的方法,OpenPose的基础由两大部分组成:
1》神经网络预测提供两个张量:关键点热图和他们成对关系(part affifinity fifields, pafs)输出是8次下采样。
2》通过人体实例进行关键点分组。包括上采样到原图像大小,在热图的峰值提取关键点,并且按照实例进行分组。
网络流程
第一步:网络首先提取特征,然后初始热图和pafs估计,然后经过5个细化阶段,他能够找到18种关键点,然后分组搜索最佳关键点为其配对,例如左耳、左膝盖、左眼等,共有19对。
3.2complexity analysis(复杂性分析)
简化理解:
最初使用VGG19网络,对结构做了修改。
每个阶段由两个平行分支组成,一个用于热图估计,一个用于pafs。这两个分支具有相同的结构设计:如下图所示:
4optimization优化
lightweight backbone 采用的是mobilenetV1(代替VGG网络)
5.conclusion(结果)
精度与网络结构复杂度比提高了6.5倍以上。
6.结果图:
自带
小琼实现 (图片来自网络,侵权请联系删除)
#
2.结束
GAME OVER
如果理解错误,欢迎大家批评,及时纠正小琼的错误哦,真心感谢你的纠正!!!
如果小伙伴梦有疑问欢迎在评论区留言哦!!!
如果感觉不错的话!点个赞呗,不用客气!(O(∩_∩)O哈哈~)
欢迎和小伙伴梦一起学习,共同努力,加油!!!
小琼独家所有
扫码有惊喜!!!