Cascaded Pose Regression

最新推荐文章于 2023-02-02 17:17:06 发布

原创

最新推荐文章于 2023-02-02 17:17:06 发布 · 5.5k 阅读

7 ·

CC 4.0 BY-SA版权

The paper presents a Cascade Pose Regression (CPR) algorithm for fast and accurate 2D object pose estimation in images. CPR refines an initial pose estimate through a sequence of weak regressors, each learning from previous estimates and image measurements. The approach is effective for various object categories and converges quickly with minimal training data, achieving performance close to manual annotation." 53129457,5697226,Android自定义TextView绘制圆圈,"['Android开发', 'UI设计', '自定义组件']

摘要

我们提出一种快速和准确的称为级联姿态回归（CPR）算法来计算图像中的对象的2D姿态。 CPR算法逐步细化随意指定的初始姿态，其中每一次姿态修正由不同的回归器确定。每一个回归器执行简单图像测量依赖于先前回归器的输出结果; 整个系统从人工注释的训练数据集中自动学习。 CPR不限于刚性变换：“姿态”是对象外观的任何参数化变化，例如可变形和关节对象的自由度。我们比较CPR与标准回归技术和人工标定（从冗余的人类注释计算）。在三个不同的数据集（小鼠，脸，鱼）上的实验表明CPR是快速的（每个姿势估计2-3ms），准确（接近手工标定），并且容易从少量的标记数据训练。

介绍

检测和定位是视觉的最有用的功能之一。检测包括给出问题“是图像中的对象/类别x”的一位答案：本地化是一个更微妙的问题：在其最简单和最流行的形式[11]中，它包括识别最小矩形区域包含相关对象的图像。这对于图像中的主要几何自由度是平移和缩放的类别（例如前脸和行人）是完全足够的。更一般地，人们希望恢复姿态，即影响对象的图像的多个参数。最常见的姿态是指刚性物体的几何变换[23]，包括铰接物体的配置，例如人体四肢或车辆布局[21]。更广泛地说，姿态是物体外观的任何系统的和可参数化的变化[5]。计算对象的姿态有两个不同的原因：（1）由于对象可变性，执行检测的唯一方式是显式地计算和分解姿态，（2）姿态是视觉模块的期望输出。在这项工作中，我们对后者感兴趣：我们希望估计物体的粗略初始位置的姿势，例如跟踪器提供的姿势。

在位置和尺度上对象定位的主要方法是使用“滑动窗口”，即重复二进制分类任务，“是位置y处的对象x”，用于姿态参数的细粒度采样。虽然这产生了大量的测试，滑动窗口方法可以通过级联[28]，距离变换[13]，分支界限搜索[20]和粗略到精细的方法[15]变得更高效。这样的方法可以通过重复回答形式为“在具有姿势θ的位置y处的对象x”的查询而扩展到更复杂的姿态概念，对于姿态θ的每个分区有一个查询。例如，对于面部检测，通常为不同水平的平面外旋转训练单独的分类器[28]。当然，这导致任务的组合爆炸，虽然有效的搜索策略可以帮助[16]，最终这种方法可能无法扩展到更复杂的概念的姿势。

在这项工