摘要
我们提出一种快速和准确的称为级联姿态回归(CPR)算法来计算图像中的对象的2D姿态。 CPR算法逐步细化随意指定的初始姿态,其中每一次姿态修正由不同的回归器确定。 每一个回归器执行简单图像测量依赖于先前回归器的输出结果; 整个系统从人工注释的训练数据集中自动学习。 CPR不限于刚性变换:“姿态”是对象外观的任何参数化变化,例如可变形和关节对象的自由度。 我们比较CPR与标准回归技术和人工标定(从冗余的人类注释计算)。 在三个不同的数据集(小鼠,脸,鱼)上的实验表明CPR是快速的(每个姿势估计2-3ms),准确(接近手工标定),并且容易从少量的标记数据训练。
介绍
检测和定位是视觉的最有用的功能之一。检测包括给出问题“是图像中的对象/类别x”的一位答案:本地化是一个更微妙的问题:在其最简单和最流行的形式[11]中,它包括识别最小矩形区域包含相关对象的图像。这对于图像中的主要几何自由度是平移和缩放的类别(例如前脸和行人)是完全足够的。更一般地,人们希望恢复姿态,即影响对象的图像的多个参数。最常见的姿态是指刚性物体的几何变换[23],包括铰接物体的配置,例如人体四肢或车辆布局[21]。更广泛地说,姿态是物体外观的任何系统的和可参数化的变化[5]。计算对象的姿态有两个不同的原因:(1)由于对象可变性,执行检测的唯一方式是显式地计算和分解姿态,(2)姿态是视觉模块的期望输出。 在这项工作中,我们对后者感兴趣:我们希望估计物体的粗略初始位置的姿势,例如跟踪器提供的姿势。
在位置和尺度上对象定位的主要方法是使用“滑动窗口”,即重复二进制分类任务,“是位置y处的对象x”,用于姿态参数的细粒度采样。 虽然这产生了大量的测试,滑动窗口方法可以通过级联[28],距离变换[13],分支界限搜索[20]和粗略到精细的方法[15]变得更高效。 这样的方法可以通过重复回答形式为“在具有姿势θ的位置y处的对象x”的查询而扩展到更复杂的姿态概念,对于姿态θ的每个分区有一个查询。 例如,对于面部检测,通常为不同水平的平面外旋转训练单独的分类器[28]。 当然,这导致任务的组合爆炸,虽然有效的搜索策略可以帮助[16],最终这种方法可能无法扩展到更复杂的概念的姿势。
在这项工作中,给定对对象位置的粗略估计,我们直接回答问题“什么是对象x的姿势θ?”,恢复姿势而不执行潜在的昂贵和分支搜索。原则上,标准回归技术完全如此[1