CPM论文翻译(CVPR2016)

ABSTRACT

姿态机提供了一种对丰富隐空间模型的学习的连续帧估计。我们为姿态识别系统地设计了一个卷积网络,可以学习图像特征和依赖图像的空间模型。论文贡献:隐含地对长距离关系建模(关节)。我们设计了一个级联网络结构,由输入为前一个网络的信任图的卷积网络构成。它一层一层改进对部件的估计,不用显式的图模型作为参照。我们运用中间监视层解决了权重消失的问题,它可以再丰富反向传播权重并且调整学习过程。我们在。。。三个数据集上取得了很好效果。

INTRO

为了估计姿态,我们介绍CPM。CPM继承了PM的架构——从图片和多部件线索之间的长距离关系进行隐含学习,让学习和输出推断(一个模块化串联设计)紧密整合,并和卷积架构的优点(直接从数据读出图像和空间的特征表达)结合;整个网络可导,可以用BP进行全局联合训练;应对大数据量。
CPM包含串联卷积网络,重复为区域产生2D信任图。每一个时期,图特征和前一时期的信任图是输入。信任图为下一阶段产生空间不确定度的无参数编码,让CPM学习有较强图片依赖的部分间的空间模型。我们没有用图片模型或特殊事后处理方法来剖析信任图,而是用卷机网络直接作用于中间层,学习部件之间关系的隐含的图依赖空间模型。整体来说,多步的架构是完全可导的,因此可以从头到尾用BP来训练。
在CPM一个特殊阶段,部件信任的空间信息为下一时期提供了一个强大的解释性线索。结果每一个时期CPM表现都在进步。为了捕捉长距离部件之间的信息,每一个串联网络的设计任务核心是得到图像和信任图的大感受野。我们发现其中信任图的大感受野尤为重要,影响结果准确性。
用多层多个网络组成一个CPM,有权重消失的风险。因为BP的层太多,所以会消失。近期研究,中间层进行监督学习会改善结果,但只限于经典问题。我们周期性添加中间监视层来让权重保留。我们也讨论了这个预测网络的不同训练策略。
我们主要贡献:
a。利用串联卷积网络学习隐含空间模型
b. 为完成结构的预测任务,系统化设计架构学习架构来学习图特征和图依赖空间模型,而不用任何图片模型。我们在训练集取得很好效果,分析了用中间监视层的联合训练效果。

姿态估计经典方法:用形象化结构,部件的空间关系用树结构图像来表示,其中用人体四肢耦合的动力学的先验知识。这方法在所有四肢都可见的情况有用,但可能在树结构没有捕捉到两变量之间关系时发生重复计数的错误。K的工作,基于图结构模型但在图像表示上有差别。
阶层模型:产生不同大小的阶层树结构。隐含假设是这些模型是容易辨认的结构,能帮助推导小的难以检测的部件。
非树结构模型,运用交互,对有多余边界树结构引入循环,可以捕捉对审,遮挡,和长距离关系。这些方法通常在学习和测试时期依赖大概的推断,因此必须让精确建模和高效推断(经常是简单的允许快速推断的参数模式)相平衡。
相反,基于串联预测的方法框架学习隐含空间模型,直接训练推断过程,可发掘变量间许多复杂的关系。
。。。

METHOD

我们把结构标签(也就是部件)的第p个像素位置叫Yp,Z是图像中所有(u,v)位置的集合。我们目标是为所有P部件预测图像位置

姿态机包含级联的多分类的预测器gt(.),被训练来预测阶层中每一级别每一个部分的位置。在每一个阶段t中,分类器gt(.)预测将位置划分为这一躯干Yp=z的信任度,基于从图片中提取的特征(用Xz表示,d维)和周围像素产生的前一个分类器的组织信息。第一阶段的一个分类器,产生如下信任度:

bp是由分类器预测的把p个部分分配给z个位置的score。我们把所有位置z的部件p的所有信任度表示为bt,其中w和h是宽和高。

方便起见,我们用信任图来表示所有部件的bt(P个部件加上背景)
接下来的阶段,分类器预测了把一个位置分配到各个部件Yp的信任度,基于
1.图像数据xz的特征,
2.上一个分类器产生的Yp附近的组织信息:

其中fai(t>1)是从b(t-1)到组织信息的映射。每一个阶段,计算出的信任度让每一个部件的位置估计都在不断被改善。注意到:我们让后面阶段的图像特征xz和第一阶段不同。PM用boost随机森林来预测gt,让手部图像特征在每个阶段都一样,并在每个阶段手模型映射都捕捉空间环境。

CPM
我们展示了预测和图像特征计算模块可以被深度网络架构来取代,其中图像和组织特征的表达可以从数据中直接学习。卷积架构让全局可导,因此可以CPM所有阶段联合训练。CPM可以描述为在PM隐含空间模型框架下的卷积架构。

1)用局部图线索来进行关键定位
第一阶段只用局部图线索来预测部件信任度。figure 2c展示用本地图信息的部件检测的深度网络。先序哦是局部的因为第一阶段感知野只是输出像素附近的一小块。我们用5层卷机网络组成的结构(尾部是量个1x`1卷积层的全卷积架构)。实践中,为了得到一定精度,我们把图片标准化为368x368,感受野是160x160.网络可以看成让深度网络在图像上滑动,并将160x160中局部图像线索回归至代表了各个部件在各个位置的score的P+1大小输出向量。
2)基于空间环境信息的级联预测
对于性状稳定的头和肩膀,检测效果很好,然而人体骨架的连接处准确率就很低,因为形状差异很大。部件周围的信任映射,虽然有噪声,但是很有价值。figure 3中,当检测右手肘时,右肩膀的信任映射达到高峰,可以成为一个很强的线索。后续阶段的预测器(gt)可以用图位置z附近含有噪声的信任映射里的空间组织信息(fai),并且利用“部件的几何设定都是恒定的”这一事实来提高改善预测。
第二个阶段,分类器g2接收特征x2和前一阶段fai的输入。前一阶段不同部件的位置z附近的空间区域产生信任映射,特征方程是把信任映射出的特点编码。CPM不用显式方程来计算环境特征,而是定义含有前一阶段信任度的fai作为预测机的感受野。
这个网络的设计为了在第二阶段输出层得到一个足够大的感知野,可以学习复杂和长距离的部件关系。通过应用迁移阶段的输出层特征(而不是用图模型的显式方程),后续卷积层自由结合最有预测力的特征,来形成环境信息。第一阶段的信任映射来自用小感知野来检验局部图像的网络。第二阶段,我们设计了一个极大扩充的等价感知野。大感知野可以用两种方法实现:牺牲准确度的池化,增加参数为代价的加大卷积核大小,或者冒着可能让反传消失风险增加网络层数。我们选择增加卷积层,在8x降维热力图上达到大感知野,让我们尽可能减少参数数量。8步网络更容易获得大感知野,它和4步网络表现一样好(在高精确度区域也是)。我们也在PM之后图像特征上映射上重复了类似架构,让空间组织依赖图像而且允许错误关联。
我们发现,感受野变大,准确性也变大。通过一系列实验,figure 4的准确度随着感受野的变化曲线,改变感受野只通过改变结构而不是增加参数。准确度随着感受野变大而变大,在250像素饱和,这也大概是归一化物体的大小。这说明,网络确实让远距离物体关系编码,并且这是有益的。我们最好的数据集中,我们把图像归一化为368x368,基于第一级信任映射的第二级感知野输出是31x31,这和原始图片的400x400像素等价,其半径可以覆盖任何部件。当阶段增多,有效感知野就会变大。我们有6个阶段。
3)用CPM学习
这个深度架构可以有许多层。训练这个网可能让梯度消失,就是反向传播在中间层会减弱。
pm级联预测框架有一个自然的解决这个问题的方法。我们不断激励这个网络,通过在每个阶段t的输出定义一个损失函数,让预测的和实际信任映射的距离最小化。部件p理想的信任映射是bp,通过把p部件的最可能点设定在ground truth位置。损失函数是

整个架构得到的物体可以通过将各阶段损失累加得到:

我们用标准st梯度下降来训练所有T阶段。为了分享所有后续阶段的特征,我们共享t>=2阶段对应卷积层的权重。

EVALUATION

1)分析
解决权重消失。上一个公式描述了一个可以分解的损失函数。和中每一个周期都作用于网络,加强了中间层的监督。中间监督层优势:即使全架构有许多层,也不会陷入权重消失的困境。
在有监督和无监督架构,我们观察不同深度的梯度高度来验证。我们发现在较早的epoch中,从输出到输入,无监视层的模型在0附近有冲激高峰,这是因为权重消失。有中间监视层的就会有大方差,说明所有层之间都在学习。我们也注意到训练进行中,梯度高度分布的方差减少直到模型收敛。
对全阶段学习的好处。我们看到figure 6 用设计合理的卷积架构来代替PM的模块,相比14年的方法带来结果极大提升。
训练策略的对比。我们比较了在带有标签的人为中心的LSP训练集的不同训练。为了显示中间监视层的优越,我们用下列方法:
1.用强化监视层的全局损失函数训练scratch
2.每一个阶段用前向传播,并且堆砌结果
3.和1.一样,但将2的结果作为初始化参数
4.和1.一样但是没有中间监视层。
我们发现1.表现最好,显示了中间监视层和联合训练是好结果的必需。2.中的stage-wise在未达到最优时饱和,3.中联合精细调节改善了结果,使之接近于1.,但是需要更多迭代。
阶段间表现。可以从figure6看出,表现从1到5单调增,下一阶段的预测机用了上一阶段的感知野中的环境信息,可以分辨前景和背景。我们看到第6阶段不再增长,于是这是我们最优结果。
2)数据集和定量分析
我们在不同数据集里。。。测试。为了让样本归一化到368x368,我们先resize图片,让样本大小相同,根据中心位置修剪、填补图片,如果可能,应用数据集来估计粗略大小。在没有这些信息的LSP,我们根据联合位置和图片大小来估计。为了测试,我们做了类似变形修剪填补,但必要时估计中心位置和大小。另外,我们将不同大小信任映射融合,解决给定大小不准确的情况。
下文略

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值