OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields实时多人2D姿态-使用部分关联字段

摘要
  • 实时多人二维姿态估计是机器了解人的重要组成部分(在图像和视频中)。在这项工作中,我们提出了一个实时的方法来检测在一幅图像中多人二维姿态。被提议的方法使用非参数表示,我们将其称为部分亲和字段(PAFs),以学习将身体部位与图像中的个体联系。该自底向上的系统无论人数多少,都能实现高精度和实时性,在之前的工作中,PAFs和身体部位的位置估计在训练阶段被同时细化。我们证明仅对PAF进行优化,而不是对PAF和身体部位位置进行优化,可导致两者的显著提高运行时性能和准确性。我们还提出了第一个结合身体和脚的关键点探测器,基于一个内部注释我们已经公开发布的足部数据集。我们表明,联合检测器不仅减少了推理时间,相对与顺序运行它们,也保持每个组件单独的准确性。这项工作的高潮是发布OpenPose,第一个开源的实时多人2D姿态检测系统,包括身体、脚、手和面部关键点。
1 INTRODUCTION
  • 在本文中,我们考虑了对图像和视频中人物的详细理解:获得人体二维姿态估计的核心部分,即解剖关键点或部位的定位问题。人类的评估主要集中在寻找个体的身体部位。在图像中推断多个人物的姿态是一种独特的挑战。首先,每个图像可能包含未知数量的人,可以出现在任何位置或比例。其次,由于接触、咬合或肢体关节,人之间的相互作用会诱发复杂的空间干扰,使部分的联系变得困难。第三,运行时复杂度会随着用户数量的增加而增加,这使得实时性能成为一个挑战
  • 常用的方法是使用单人检测器,并对每个检测执行单人姿态估计。这些自顶向下的方法直接利用现有的技术进行单人姿态估计,但是会受到早期的影响:如果person检测器失败了(当人们离得很近时,它很容易失败),那么就没有办法恢复。此外,它们的运行时间与图像中的人数成正比,对于每个人检测,运行一个单人姿态估计器。相反,自底向上方法很有吸引力,因为它们提供了健壮性,并且有潜力将运行时复杂性与映像中的人员数量解耦。然而,自下而上的方法并不直接使用来自身体其他部位和其他人的全局上下文线索。最初的自底向上方法([1],[2])并没有保持效率上的提高,因为最终的解析需要花费大量的全局推理,每个图像需要花费几分钟时间。
  • 本文提出了一种在多个公共基准上具有竞争性能的多人位姿估计方法。我们通过部分关联域(PAFs)给出了第一个自底向上的关联分数表示,部分关联域是一组二维向量域,用于编码图像域上四肢的位置和方向。我们证明,同时推断这些自下而上的检测和关联表示编码了足够的全局上下文,以实现贪婪解析高质量的结果,且仅用计算成本的一小部分。
    在这里插入图片描述
  • 这个手稿的早期版本出现在[3]。这个版本有几个新的贡献。首先,我们证明了改进的PAF最重要的是最大化准确性,而身部分预测的改进不是那么重要。我们增加了网络深度,但去掉了身体部分的细化阶段(章节3.1和3.2)。这种改进的网络将速度和准确度分别提高约200%和7%(章节5.2和5.3)。其次,我们给出了一个带有15K已公开发布的人类脚实例注释的foot dataset1(章节4.2),并展示了一个带有身体和脚关键点的组合模型可以在训练时保持body-only模型的速度,同时保持其准确性(章节5.5)。第三,我们通过将该方法应用于车辆关键点估计的任务来证明该方法的通用性(第5.6节)。最后,完成了OpenPose[4]的发布。这个开源库是第一个可用于多人2D姿态检测的实时系统,包括身体、脚、手和面部关键点(第4节)。我们还包括一个运行时间对比与mask R-CNN[5]和Alpha-Pose[6],展示了我们自底向上方法的计算优势(第5.3节)。
2 RELATED WORK
  • 单位姿估计,传统的人体位姿估计方法是结合人体部位的局部观察和它们之间的空间依赖关系进行推理。铰接姿态构成的空间模型是基于树形结构图形模型[7],[8],[9],[10],[11],[12],[13],其中参数化编码空间相邻部分关系,依赖运动链,或非树木模型[14],[15],[16],[17],[18],这增加了额外的边缘的树结构来捕获闭塞,对称,和长期的关系。为了获得可靠的身体部位局部观测,卷积神经网络(CNNs)得到了广泛的应用,显著提高了姿态估计精度[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29], [30], [31], [32] 。Tompson等人[23]使用了一种具有图形模型的深层架构,其参数是与网络共同学习的。Pfister等人[33]进一步使用设计大感受野网络cnn隐式捕获全局空间依赖关系。Wei等人[20]提出的卷积位姿机架构采用了基于序列预测框架[34]的多级架构;迭代地结合全局上下文来优化部分置信映射,并从以前的迭代中保留多模态不确定性。在每个阶段的末尾强制进行中间监督,解决training过程中梯度消失的问题[35]、[36]、[37]。Newell等人[19]还表明,中间监督在堆叠沙漏结构中是有益的。但是,所有这些方法都假设只有一个人,这个人的位置和规模是已知的。
  • 对于多人姿态估计,大多数方法[5],[6],[38],[39],[40],[41],[42],[43],[44]都采用了自顶向下的策略,先检测到人,然后在每个检测区域独立的估计出每个人的姿态。虽然这一策略使得针对单个人情况开发的技术可以直接应用,但它不仅在对人的检测方面存在early commitment,而且也无法捕获需要全局推理的不同人之间的空间依赖。一些方法已经开始考虑人与人之间的依赖关系。Eichner等人[45]扩展了图形结构,考虑了一系列交互的人和深度排序,但仍然需要一个人检测器来初始化检测假设。Pishchulin等人[1]提出了一种自底向上的方法,该方法联合对部分检测候选对象进行标签,并将其与个体人相关联,通过检测部分的空间偏移量回归成对的分数。该方法不依赖于人的检测,但求解所提出的全连通图上的整数线性规划是一个NP-hard问题,因此单幅图像的平均处理时间为小时。Insafutdinov等人在[1]基础上构建了基于ResNet[46]和图像依赖的配对分数的更强的部分检测器,并通过增量优化方法极大地改进了运行时,但该方法仍然需要花费几分钟,最多只能150个part proposals。****[2]中使用的两两表示是每对身体部位之间的默认偏移向量,很难精确回归,因此需要单独的逻辑回归将两两特征转换为概率分数
  • 在早期的工作[3]中,我们提出了部分关联字段(PAFs),这是一种由一组流场组成的表示,这些流场编码了可变人数的身体部位之间的非结构化的成对关系。与[1]和[2]相比,我们可以有效地从PAFs中获得两两得分,而不需要额外的训练步骤。这些分数足以使贪婪解析获得高质量的结果,同时具有多人估计的实时性能。与此同时,Insafutdinov等人[47]进一步简化了他们的身体部位关系图,以便在单帧模型中进行更快的推理,并将关节式人体跟踪制定为零件方案的时空分组。最近,Newell等人[48]提出了联想嵌入,联想嵌入可以看作是表示每个关键点组的标签。他们用相似的标签将关键点分组到每个人身上。帕潘德里欧等人[49]提出检测单个关键点并预测其相对位移,允许贪婪解码过程将关键点分组到person实例中。Kocabas等人[50]提出了一种姿态残差网络,该网络接收关键点和检测到的人物,然后将关键点分配给检测到的人物包围盒。Nie等人[51]提出用候选关键点到图像中人的中心的稠密回归对所有关键点检测进行分割。
  • 我们证明了, PAF细化对于高精确度是至关重要和充分的,在增加网络深度的同时去除身体部分置信图的细化。这将产生一个更快更准确的模型。我们还展示了第一个结合身体和脚的关键点探测器,根据一个注释脚数据集,将公开发布。我们证明,结合这两种检测方法不仅比单独运行它们减少了推理时间,而且保持了各自的准确率。最后,我们介绍了OpenPose,第一个用于实时身体、脚、手和面部关键点检测的开源库。
3 METHOD
  • 图2说明了我们方法的整个pipeline。系统以大小为w h的彩色图像为输入(图2a),生成图像中每个人的解剖关键点的二维位置(图2e)。首先,前馈网络预测了一组人体部位位置的二维置信度映射(图2b)和一组部分亲和场(PAFs)的二维向量场,它编码了部位之间的关联度(图2c)。集合S = (S1;S2;:::;SJ)有J个置信映射,每部分一个,其中sj2 Rw h, j2 f1::: Jg。集合L = (L1;L2;:::;LC)有C向量场,每翼一个,其中Lc 2 Rw h2, c2f1::: Cg。为了清晰起见,我们将部分对称为四肢,但有些对不是人的四肢(例如,脸)。Lc中的每个图像位置编码一个二维向量(图1)。最后,通过贪婪推断(图2D)对置信映射和PAFs进行解析,输出图像中所有人的二维关键点。
3.1 Network Architecture
  • 我们的架构,如图3所示,迭代地预测编码部分到部分关联的亲和域,如蓝色所示,检测置信度图,如米色所示。迭代预测架构,遵循[20],改进了连续阶段的预测,每个阶段都有中间监督。
  • 网络深度相对于[3]增大。在最初的方法中,网络架构包括几个7x7卷积层。在我们目前的模型中,通过将每个7x7卷积核替换为3个连续的3x3核,在减少计算量的同时保留了接收场。前者的操作次数是2 72 1 = 97,而后者只有51。另外,这3个卷积内核中的每个的输出都被连接起来,遵循类似于DenseNet[52]的方法。非线性层数增加了三倍,网络既能保持低电平特征又能保持高电平特征。第5.2节和5.3节分别分析了精度和运行速度的改进。
3.2 Simultaneous Detection and Association
  • 图像由CNN分析(由vggg -19[53]的前10层初始化并进行微调),生成一组特征映射F,该特征映射F被输入到第一阶段。在此阶段,网络生成一组部分亲和场(PAFs) L1 = rck 1(F),其中,rck 1为第1阶段用于推理的CNNs。在随后的每一阶段,前一阶段的预测和原始图像特征F被连接起来,并用于产生精细化的预测
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值