Pose machines-estimate the 2D pose from a single image

最新推荐文章于 2022-06-14 10:50:36 发布

qq_43452156

最新推荐文章于 2022-06-14 10:50:36 发布

阅读量226

点赞数 1

分类专栏： human pose estimation

本文链接：https://blog.csdn.net/qq_43452156/article/details/103588222

版权

Pose Machine:articulated pose estimation via inference machine

引言

一、人体姿态估计复杂性的两个来源：

底层关节骨骼的大量自由度（近20°），这导致需要搜索一个高维配置空间；
人体外观的差异性，每个部件的外观因配置、成像条件、人与人之间的不同而不同。

二、图模型的限制性：

简单的图模型无法捕捉部件位置之间重要的相关性，会导致特征误差，比如double counting(如图1)：
double counting:当图像的相同区域用于解释多个部件时发生，是因为身体部位的对称外观（左臂和右臂通常具有相似的外观），并且是各部位相互遮挡的有效配置。用图模型对外观对称性和自遮挡进行建模需要额外的边缘并在图中引入循环。这种非树结构通常需要近似推断，例如循环信念传播，使得参数学习非常困难。
在指定交互类型时，需要仔细考虑potential functions的定义。这种选择通常由参数形式决定，例如简单的二次模型，使得推理更加容易。因此实践中使用简单的分类器，比如用于部分检测的混合线性模。
这些是由模型的可控性而非数据的复杂性所决定的选择，会导致限制性模型无法解决问题固有的复杂度。

三、本文的方法

思路：
通过直接训练推理过程避免复杂性和易处理性之间的权衡；
灵感：
conditioning finer part detection on the detection of large composite parts can improve localization; we incorporate these multi-scale cues in our framework by also modeling a hierarchy of parts.
方法：
基于inference machine的pose machine是一种序列预测算法，模拟信息传递机制，预测每个part的置信度，迭代地在每个阶段改进the location of each part。
推理机的优点：
（1）一次性包含多个变量之间丰富的交互信息，减少了图1所示的double counting问题；
（2）可以直接从数据中学习空间模型，不需要设定potential function的参数形式；
（3）模块化框架可以使用高容量预测器，可以很好的处理每个part高度多模态外观；
贡献：
（1）提出一种使用推理机框架的articulated pose estimation的方法，可以解决上述提到的两个主要问题；
（2）易于实现，在测试时不需要专门的优化求解器；

相关工作

树结构图模型：
将人体表示为一个树结构图形，使用运动学先验知识连接四肢。这类方法在图片中人体四肢可见的情况下非常有用，但是容易产生特征误差比如double counting image evidence，这是由于树结构图形没有对变量之间的相关性进行建模。
非树结构图模型：
改进了树结构模型，能够捕捉未连接到树的parts之间的遮挡关系。在这类模型上执行推理很困难，学习和测试时通常需要使用相似的方法。
部分层次模型：
condition the detection of smaller parts that model regions around anatomical joints on the location of large composite parts or poselets that model limbs in canonical configurations and tend to be easier to detect.
本文方法的优点：
（1）使用前一阶段的输出改进part localization，以非参数数据驱动的形式学习空间模型，不需要设计part-specific classifiers；
（2）与深度学习方法类似，广义上是一种多层模块化网络，与深度学习方法以全局形式训练而言（BP算法），以有监督方式对每个模块进行局部训练；
（3）将part localization转变为a sequence of predictions——将前一阶段预测器的输出作为下一阶段的输入；
（4）基于hierarchical inference machine architecture，将结构化预测任务转变为一系列简单的机器学习子问题；
（5）extend and analyze the inference machine framework for the task of articulated pose estimation

Pose Inference Machines
一、背景
将图片中每个anatomical landmark的pixel location记为：
$Y_p\in Z \subset R^2$
$Z=\{(u,v)|u,v \in image\}$

our goal: $\forall P\in P,Y=(Y_1,Y_2,...,Y_P)where \space P\space is\space the\space number\space of\space parts$

$\forall t \in \{1...T\}$ ,基于图像数据 $x_z\in R^d$ 和在每个 $Y_P$ 邻域内来自于前一分类器的语义信息，分类器 $g_t()$ 预测令 $Y_P=Z,\forall z \in Z$ 的置信度。
在每个阶段，置信度为变量提供一个逐渐精确的估计。 $\forall t \in \{1...T\}$ ，令 $Y_P=Z$ 的置信度为：
$b_t(Y_p=z)=g_t^p\left(x_z;\bigoplus^P_{i=1}\psi(z,b_{t-1}^i)\right)\tag 1$
where $b_{t-1}^p=\{b_{t-1}^p(Y_p=z)\}_{z \in Z}\tag 2$
表示对于p’th部位，在每个位置z处由前一个分类器评估的置信度集合。
特征函数 $\psi:Z\times R^{|Z|}\rightarrow R^{d_c}$ 计算来源于前一个分类器置信度的语义信息， $\bigoplus$ 表示向量连接。
不同于传统图模型，比如图结构，推理机框架不需要显式地通过potential functions对变量之间的相关性进行建模，而是通过分类器将相关性随机组合，这使得变量之间的复杂交互成为可能。通过一系列简单的子问题直接训练推理过程，从而可以使用任何有监督学习算法解决子问题，因此，可以利用最先进的
有监督学习技算法，使用能够处理多模态变化的复杂预测器。我们的关节人体姿态估计采用分层均值场推理机形式，每个变量所使用的语义信息来自于图形空间和尺度上的相邻变量。

二、Incorporating a Hierarchy

设计一种分层推理机，能够在图像的不同尺度上编码部件之间的交互关系，定义了从小的原子部件到大的复杂部件的层次结构。层次结构中的每个level都有不同种类的部件。在最粗糙的level，层次由单个可以捕捉整个人体的部件组成；在接下来的level，由可以建模完整肢体的复合部分组成；在最高级别的level中，由可以对anatomical landmark周围的区域建模的小部件组成。
$P_1,...,P_L表示层次结构中每个level的the\space number\space of\space parts$

最低0.47元/天解锁文章

qq_43452156

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Pose machines-estimate the 2D pose from a single image

现有关节人体姿态处理都是基于图模型，为了使推理容易，这些方法采用树结构且参数简单。这些模型无法捕捉身体部位之间的交互关系，虽然可以定义更加复杂的模型，但是这些模型的参数学习困难。本文在推理机的基础上，提出一种关节人体姿态估计，融合了多个部位之间丰富的空间关系，既可以在没有专门优化求解器的情况下轻松实现，又可进行有效推理。
复制链接

扫一扫