论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields


最近需要做视频分类相关的工作,在做技术调研过程中,了解到视频分类包含了两种形式,(1)通用的多标签视频分类,它的特点是标签为静态的,也即做分类时不需要考虑图像帧之间的关联性,因此跟基于图片的分类没什么差异了。(2)行为识别,因为是“行为”,所以这类任务需要考虑图像帧之间的关联性,比如“芭蕾舞”、“绘画”等,包含了3D卷积和Two-stream两种方法,在看了这方面的综述文章后发现是全新的方向。因为笔者之前一直做的2D目标检测方向,为了能更好地王行为识别方向过渡,选择先从2D的行为识别啃起,也即人体关键点检测,因此后面的几篇博文都是围绕关键点检测展开的。

说起人体关键点检测,就不得不提OpenPose算法了,它因为速度和精度的权衡在实际中得到了广泛的应用,它包含了人体骨骼关键点检测和脸部关键点检测。笔者在阅读它所使用的人体骨骼关键点检测算法后,有了对这个方向新的理解,故这里记录下来。

1 “top-down” vs “bottom-up”

人体姿态估计可以分为两种思路,(1)“top-down”,它指先检测人体区域,再检测区域内的人体关键点。(2)“bottom-up”,它指先检测图片中所有的人体关键点,然后将这些关键点对应到不同的人物个体。这里需要提及一下,第一种方案因为需要对检测出的每个人体区域,分别做前向关键点检测,所以速度较慢,而OpenPose采用的则为第二种方案。

2 动机

2.1 已有"bottom-up"方法缺点

(1)未利用全局上下文先验信息,也即图片中其他人的身体关键点信息;

(2)将关键点对应到不同的人物个体,算法复杂度太高。

2.2 改进点

论文中提出了新的概念“Part Affinity Fields (PAFs)”,笔者将其翻译成关节联通区域。每个像素是2D的向量,用于表征位置和方向信息。基于检测出的关节点和关节联通区域,使用greedy inference算法,可以将这些关节点对应到不同人物个体。

3 方案

整个的技术方案为“two-branch multi-stage CNN”,如下图,其中一个分支用于预测打分图 S S S,另外一个分支用于预测关节联通区域 L L L

符号说明:

S = ( S 1 , S 2 , . . . , S J ) S=(S_{1}, S_{2}, ..., S_{J}) S=(S1,S2,...,SJ):score maps,其中 J J J表示关节点个数, S i ∈ R w × h S_{i}\in R^{w\times h} SiRw×h用于表征第 i i i个关节点的score map;

L = ( L 1 , L 2 , . . . , L C ) L=(L_{1}, L_{2}, ..., L_{C}) L=(L1,L2,...,LC):part affinities,其中 C C C表示关节连通域(关节点对)的个数, L c ∈ R w × h × 2 L_{c}\in R^{w\times h\times 2} LcRw×h×2用于表征第c个关节联通域的联通情况,2D表征像素点的位置和方向,图像化表示如下,
在这里插入图片描述
其中,左图为"right elbow"和“right wrist”对应的关节联通域。右图为局部图像块放大后的表示;

3.1 Detection 和 Association

论文中所提的多任务网络架构,能够同时预测detection confidence maps和affinity fields,前者用于表征每个像素点是否为关节点的置信度,后者用于表征关节点之间的关联性。
在这里插入图片描述
输入图像经过VGG-19的backbone网络,输出特征图 F F F,然后 F F F经过Branch 1和Branch 2,分别得到Stage 1对应的confidence map和affinity field。其中, ρ t 、 ϕ t \rho^{t}、\phi^{t} ρtϕt表示Stage t不同分支的推理CNN,公式表示如下,
在这里插入图片描述
然后,将Stage 1的输出 S 1 、 L 1 ​ S^{1}、L^{1}​ S1L1 F ​ F​ F做concate操作,作为Stage 2的输入,Stage 2负责对confidence map和affinity field做refinement操作,图像化表示如下,
在这里插入图片描述
关于两个分支的损失函数,作者均采用了 L 2 L_{2} L

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值