Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 发展历程解读

1 Pose machines: Articulated pose Estimation via Inference machines
理解Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields这篇文章需要从Pose machines这篇文章开始,正是这篇文章真正开启了使用机器学习思想进行骨架识别的方法。
1.1传统骨架节点识别方法
传统的方法既基于自上而下的模式识别方法,是基于“图模型的方法”,主要思路如下:
1)将一个人的所有骨架节点组合成一个默认的树形结构
2)使用机器学习方法得到人的图像,既图像分割
3)基于图像信息和默认的树形骨架组合进行推理确定骨架节点信息
这里虽然使用了基于机器学习的图像分割,但整体思路还是模式识别的思路,既先认为假设一些特征(树形结构),再根据特征检测结果进行推理。因此这类方法存在如下问题:
1)树形结构限制了推理范围,既对复杂的人体结构时会导致推理不准确,比如多个人有重合时。
2)虽然可以得到人的图像,但很难直接从图像明确肢体的位置,这是因为人的肢体具有对称性,很多时候无法分清左右。
基于以上问题,传统的基于图模型的方法就需要设计非常复杂的推理策略,这样就导致该策略的适用性变差,而基于自下而上的机器学习方法的诞生就是要解决这个适应性问题,既一个模型可以应用于各种工况。
1.2 Pose machines
1.2.1问题归类
Pose machines首先变换了看问题的角度,既将图模型问题改为“节点结构问题”,目标就是在图片上直接找到骨架节点的位置,关于使用什么样的特征那就交个深度学习模型了。
1.2.3训练问题
对问题归类完成,并明确目标后就要确定训练数据集的问题,这里数据集就是骨架节点的坐标,训练过程需要使用梯度下降法计算得出图像一个坐标是某个节点的可能性,这样就需要引入置信度这个单位评估。
1.2.4建立机器学习模型
明确了目标和训练问题后则开始论文的核心,如何建立深度学习网络模型。
首先定义节点坐标
1)原图像节点坐标Yp属于Z
其中Z是图像坐标的集合。
2)特征Xz,既CNN对原图像的特征提取,这里使用Vgg在这里插入图片描述
3)置信度bt在这里插入图片描述
在t-1阶段,坐标为z的点是Yp节点的置信度,Yp也是坐标,代表一个骨架节点坐标。
4)置信度得分
在这里插入图片描述
原图像每个点z在t-1阶段是第i个节点的置信度得分
5)模型公式
根据上述得最终模型公式为:在这里插入图片描述

该模型解释如下:
(1)Xz是原图像经过CNN网络进行的特征提取,这里采用Vgg
(2)Xz右边是t-1阶段图像每个点z是第i个骨架节点的置信度得分
(3)gt是分类器,采用了基于决策树的boost 分类器,注意这里得到的bt是一个点的得分,这些点可以在一个map标记出来。

1.2.4模型总结
由模型公式可知,该模型特点如下:
1)每个阶段都用一个独立的Vgg网络重新提取原图像特征,可以防止梯度下降法过拟合,增强模型泛化能力。
2)使用多阶段的迭代模式实质就是增加网络的深度,这里不同的是在网络中间更新输入特性,既每个阶段独立的Vgg输出特征,从而实现高精度稳定收敛。
3)使用不同尺度图像进行识别,既可以有效提取局部精细信息,还可以提取全局位置信息。
2 Convolutional Pose machines
随着深度学习模型的发展,基于上一篇论文的基本思路对机器学习模型进行了改进,主要思路是充分的利用了卷积特性,从而提出了著名的CPM骨架节点识别算法,主要改进如下:
1)用CNN卷积替代了全连接网络
2)通过学习模型网络的感受野变化替代了尺度变化
3)对每一个阶段的输出都进行监督学习,既引入了“中继监督”的概念
4)上篇论文采用基于决策树的分类器输出置信度,而这里通过CNN输出的belief map 作为输出,这个前一阶段的belief map用于后一阶段的输入,从而更加有效的利用了空间信息,这也是本文的主要两点。
3 Realtime multi person 2d pose estimation using
part Affinity fields
基于上述两篇文章发展到目前较为成熟的可实现多人的2维图像骨架节点识别算法,主要特点是:
1)机器学习模型仍然使用CPM
2)引入PAF,既使用CPM分别训练belief
map和part affinity fields既引入了PAF的概念,这是能够实现多人骨架识别的关键,虽然多个人距离很近甚至重叠,通过基于PAF的策略仍然可以有效的将每个人的骨架信息区分开来。
4 机器学习心决
通过对骨架识别的算法发展,总结出以下三条心决:
1)自上而下的模式识别方式和自下而上的机器学习方式
第一篇论文的提出关键就是这个思维模式的转变,完全摒弃了基于自上而下的图模型方法。
2)机器学习的算法本质是梯度下降
Pose machines 和改进的CPM都采用了分阶段迭代的思想,每个阶段独立提取特征,这些工作都是为了克服梯度下降法存在的一些问题。
3)信息论第一性原理,深度学习的目标是提取更有效的信息消除不确定性
CMP引入belief map提取了更有效的空间信息来消除不确定性,Realtime Muli-person 这篇文章通过引入亲和场PAF提取了更有效的信息消除多人节点连接的不确定性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值