人体关键点检测 | 综述(1)

--  Background

专业术语:multi-person pose estimation

多人姿态估计的两种研究方法——

自顶向下(top-down):先检测出多个人,再对每一个人进行姿态估计(先检测单个人,再针对单个人做single-person pose estimation。),可以将人体detection的方法加上单人姿态估计方法来实现。
优点:思路直观,自然,被绝大部分人所青睐,且单人估计精度非常高。
自底向上(bottom-up):先检测出关节点,再判断每一个关节点属于哪一个人。(先检测joints 和 limbs,
然后将他们group成一个人。) 
 

优点:整个图像只需要处理一遍,速度不随人数增加而变化。

Part1:Single Person Pose Estimation

2015 年之前的方法都是回归出精确的关节点坐标( x,y ),采用这种方法不好的原因是人体运动灵活,模型可扩展性较差。

《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

2015 年 flow convnet 将姿态估计看作是检测问题,输出是 heatmap。其创新点在于从卷积神经网络的 3 和 7 层提取出来,再经过卷积操作,称之为空间融合模型,用来提取关节点之间的内在联系;同时使用光流信息,用来对准相邻帧的 heatmap 预测。最后使用参数池化方法,将对其的 heatmap 合并成一个 scoremap。

评测数据集:FLIC数据集,对于wrist和elbow的平均PCK可以达到92%,可以做到实时性,速度为5fps。但是该方法对于pose的估计范围有限,只是半身的关节点,并不是全身的身体骨骼点。

《Convolutional Pose Machines》CVPR 2016

2016 年提出的 CPM 方法具有很强的鲁棒性,之后的很多方法是基于此改进的。CPM 的贡献在于使用顺序化的卷积架构来表达空间信息和纹理信息。网络分为多个阶段,每一个阶段都有监督训练的部分。前面的阶段使用原始图片作为输入,后面阶段使用之前阶段的特征图作为输入,主要是为了融合空间信息,纹理信息和中心约束。另外,对同一个卷积架构同时使用多个尺度处理输入的特征和响应,既能保证精度,又考虑了各部件之间的远近距离关系。

评测数据集:MPII,LSP,FLIC,在MPII数据集上的total PCKh是87.95%(如果加上LSP数据集作为训练,将达到88.52%),在LSP数据集上的PCKh是84.32%(如果加上MPII数据集作为训练,将达到90.5%),在FLIC数据集上的PCK@0.2分别是elbows(97.59%),wrist(95.03%)。速度不明,应该无法做到实时。

《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016

同年发表的 stacked hourglass 也取得了非常不错的效果。对给定的单张 RGB 图像,输出人体关键点的精确像素位置,使用多尺度特征,捕捉人体各关节点的空间位置信息。网络结构形似沙漏状,重复使用 top-down 到 bottom-up 来推断人体的关节点位置。每一个 top-down到 bottom-up 的结构都是一个 hourglass 模块。

评测数据集:在FLIC数据集上的PCK@0.2分别elbows(99%),elbows(97%); 
在MPII数据集上如下:Tompson就是flow convnet,Wei就是CPM 
这里写图片描述

《Structured Feature Learning for Pose Estimation》CVPR 2016

2017 年王晓刚组的 structured pose 也是在 CNN 的基础上进行微调,其创新点在于在卷积层使用几何变换核,能够对关节点之间的依赖关系进行建模,此外还提出了双向树模型,这样每个关节的 feature channel 都可以接收其他关节的信息,称之为信息传递,这种树状结构还能针对多人进行姿态估计。但是这种多人姿态估计的准确度不高,方法还是基于单人的比较好。

评测数据集:FCIL,LSP,MPII,在 FCIL,LSP均比之前的方法有所提升,在MPII数据集上也曾暂列榜首,PCKh达到91.5%,准确率提升不大。

目前在MPII数据集上位列榜首方法来自论文《Adversarial PoseNet: A StructureawareConvolutional Network for Human Pose Estimation》,采用的GAN的方法,效果比之前的state-of-the-art仅仅提升了零点几个百分点。基本上到hourglass之后的方法都是一些微调,虽然理论都不太一样,但是准确度提升不大。

 

Part2:Multi-Person Pose Estimation

 

《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》 CVPR 2016

《DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model》 ECCV 2016

2016 年的 deepcut,采用自顶向下的方法,先用 CNN 找出所有候选的关节点,将这些关节点组成一幅图,对图中的节点进行聚类,从而判断各个节点属于哪一个人,这是一个优化问题;同时,对各个点进行标记,分类属于身体的哪一部分;两者结合输出姿态估计结果。

Deepercut 是在 deepcut 的基础上使用 resnet 进行检测提高精度,使用 image conditioned pairwise ,能够将丰富的候选节点进行压缩,提升速度和鲁棒性。

评测数据集:deepcut,对于单人姿态估计,在LSP数据集上的PCK达到87.1%,在MPII数据集上的PCK达到82.4%(可见,适用于多人的姿态估计方法和纯粹的单人姿态估计方法的准确率还有所差距);对于多人姿态估计,在WAF数据集上mean PCP达到84.7%,在MPII多人数据集上AP 达到 60.5%,速度非常慢。

DeeperCut:和deepcut的评测数据集相同,这里主要针对多人来看,其准确率和速度都有所提升,尤其是速度方面。

在MPII数据集上结果如下: 
这里写图片描述

可以看到,DeeperCut最快可以做到230s每帧,比deepcut的每帧需要几十万秒速度有显著提升。单纯对于检测来说,faster r-cnn的方法要快很多,不过它的准确度没有deepercut高。

在WAF数据集上也有显著速度提升: 
这里写图片描述

《ArtTrack: Articulated Multi-person Tracking in the Wild》CVPR 2017

2017年的ArtTrack的作者也是DeeperCut 的第一作者,是将人物姿态估计用到了视频跟踪里面,本文的贡献是利用现有的单帧姿态估计模型作为基础框架,但是速度却明显加快,这种加快主要通过以下两种方式来进行:(1)通过简化和稀疏身体部位的关系图,使用进来的方法进行快速的推理;(2)不加载用于前馈神经网络上的大规模计算量,这些神经网络是为了检测和关联同一人的身体关节。模型仍然是采用 top-down 的方法,即先用 Resnet 检测出body part proposal,然后再根据关联和空间信息将他们归为不同的人。

同时,本文也提出一种 top-down/bottom-up 的模型,即 top-down 部分是用来对人体做一个粗略的估计,之后再用bottom-up 进行精确调整,使得预测的关节点位置更准确。

评测数据集:WAF数据集和MPII Video Pose数据集,相应有所提升。

基于Deep(er)Cut和ArtTrack的pose开源实现https://github.com/eldar/pose-tensorflow(python3+tensorflow,MPII数据 
集/COCO数据集)

《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》CVPR 2017

2017 年的 Part Affinity Fields(PAF)能够针对多人做到实时检测,它采用的却是自底向上的方法,网络框架分为两路;一路使用 CNN,根据置信图进行关节点预测,另一路使用CNN 获得每个关节点的 PAF,PAF 可以看作是记录 limb 位置和方向的 2D 向量。两路进行联合学习和预测。最后就是如何将这些节点两两连接不重复,这转换为图论问题。

评测数据集:COCO 2016关键点检测数据集+MPII multi-person benchmark。对于MPII多人pose,本文无论是准确度还是精度上都有质的飞跃,其相比于DeeperCut的速度快了4万多倍,准确度也有几个百分点的提升。可以做到实时,每帧只需要5毫秒,即200FPS。 
这里写图片描述

在COCO2016 challenge上准确度也有显著提升。 
这里写图片描述

New state-of-the-Art

《Mask R-CNN》ICCV 2017,FAIR,Kaiming He

2017年何凯明的Mask R-CNN,Mask R-CNN 是用于目标检测分割的框架,即对一张图片,既输出图片中已有的目标,还能为每一个实例生成一个高质量的分割掩码。mask RCNN是在 faster R-CNN 的基础上,在每一个 RoI 都增加一个预测分割的mask,这和分类以及 bounding box 回归是并行的一条分支。它的训练简单,仅仅比 faster RCNN多一点计算开销。它易于泛化到多个任务上,例如人体姿态估计。在不加任何的 trick的情况下,在COCO 数据集上超越其他的方法。因此准确度方面基本上已经是state-of-the-Art。

应用到pose estimation,将分割系统中的目标改为K个one-hot,m*m的二进制mask。准确率比COCO 2016 冠军高0.9个点,速度达到5 FPS。

《Towards accurate multi-person pose estimation in the wild》CVPR 2017 Google

Google的人体姿态估计,多数时候在论文中简写为G-RMI。

论文采用top-down的结构,分为两个阶段: 
第一阶段使用faster rcnn做detection,检测出图片中的多个人,并对bounding box进行image crop; 
第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset; 
最后通过heatmap和offset的融合得到关键点的精确定位。

《Associative Embedding:End-to-End Learning for Joint Detection and Grouping》

论文提出了一种single-stage,end-to-end的关节点检测和分组方法,这不同于以往的multi-stage的关节点检测方法,在MPII和COCO数据集上达到新的state-of-the-art的效果,超越最近的Mask RCNN和Google GMI。从人体姿态估计方法上属于bottom-up的方法,即先检测关节点,再对关节点进行分组。在COCO测试集上mAP达到0.655。

《RMPE: Regional Multi-Person Pose Estimation》ICCV 2017,SJTU,Tencent Youtu

这篇论文是上海交大和腾讯优图的论文,被 ICCV 2017接收。它对于多人姿态估计的方法采用传统的自顶向下的方法,即先检测人,再识别人体姿态。检测使用的是SSD-512,识别人体姿态使用的是state-of-the-art的Stacked Hourglass方法。致力于解决对于imperfect proposal,通过调整,使得crop的单人能够被单人姿态估计方法很好的识别,从而克服检测带来的定位误差。

  • 4
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 对于基于人体骨骼点的动作识别研究,近年来取得了显著的进展。首先,研究人员通过计算机视觉技术检测细节的人体骨骼关键点,并利用机器学习方法来分析这些关键点,从而实现动作识别。其次,将深度学习技术引入动作识别领域,取得了良好的效果。最后,研究人员还将虚拟现实,无线传感器等技术引入基于人体骨骼点的动作识别研究,从而实现更进一步的进展。 ### 回答2: 动作识别是计算机视觉领域的一个重要研究方向,它在很多应用中都有着重要的作用。基于人体骨骼点的动作识别是近年来兴起的一种方法,它利用深度相机等设备所获取的人体骨骼点数据来识别人体的动作。 基于人体骨骼点的动作识别方法的一般流程包括骨骼点提取、特征提取和分类器训练三个主要步骤。首先,需要从深度相机采集的图像中提取出人体的骨骼点信息。这一步骤需要通过骨骼点检测和跟踪算法来完成,常见的方法有基于深度学习的方法和基于传统计算机视觉方法方法。其次,需要从骨骼点序列中提取出合适的特征,以表达动作的关键信息。常用的特征包括骨骼长度、关节角度和运动速度等。最后,利用分类器对提取出的特征进行训练和识别,常见的分类器包括支持向量机、随机森林和深度学习模型等。 近年来,基于人体骨骼点的动作识别方法取得了一系列突破性的成果。这种方法不仅可以高效地提取出人体动作的关键信息,还可以克服传统方法中图像光照、遮挡等问题的影响。此外,基于人体骨骼点的动作识别方法也具有较好的实时性能,在人机交互、场景分析和体感游戏等领域具有广阔的应用前景。 然而,基于人体骨骼点的动作识别方法也面临一些挑战。例如,骨骼点的提取精度和稳定性仍有待提高,骨骼点序列的表示和特征提取方法也需要进一步研究。此外,基于人体骨骼点的动作识别方法对环境要求较高,在复杂背景下识别准确率可能下降。 综上所述,基于人体骨骼点的动作识别方法是一种有效且具有广泛应用前景的技术。随着算法和设备的不断发展,相信这一方法在未来会继续取得更好的成果。 ### 回答3: 基于人体骨骼点的动作识别是计算机视觉和模式识别领域的一个研究热点。它是通过利用传感器等技术采集到的人体骨骼点数据,来识别和分析人体的动作。 在人体骨骼点的动作识别研究中,主要分为两个步骤:数据采集和识别分析。首先,通过摄像头、深度摄像机或传感器等设备采集到的人体运动的数据,可以获取到人体骨骼点的位置信息。然后,利用机器学习、深度学习等算法,对这些数据进行特征提取、编码和分类,从而实现对不同动作的识别和分析。 目前,人体骨骼点的动作识别在很多领域有着广泛的应用。在体育运动领域,可以用于运动员的动作监测和数据分析,帮助提高训练效果。在医疗领域,可以用于康复训练和评估,辅助治疗疾病。在虚拟现实和游戏领域,可以用于实现更加真实和沉浸式的交互体验。 虽然基于人体骨骼点的动作识别在研究和应用上都取得了一些进展,但仍面临许多挑战。例如,不同人的骨骼点结构和动作表现存在差异,如何建立通用的模型仍然是一个难题。此外,由于动作的多样性和复杂性,如何提取有效的特征并进行准确的分类也是一个挑战。 总之,基于人体骨骼点的动作识别是一个具有广泛应用前景的研究方向。随着技术的不断发展,相信在未来会有更多的突破和创新,为人类带来更多便利和创造力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值