PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning
如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
摘要
最先进的计算机视觉算法通常通过对下一步要探索的假设进行离散选择来获得效率。这允许将计算资源分配给有希望的候选者,然而,这样的决定是不可微的。因此,这些算法很难进行端到端的训练。在这项工作中,我们提出学习一个有效的六维物体姿态估计的算法。我们的系统使用强化学习来优化现有的位姿估计系统的参数,其中位姿估计系统现在变成随机策略,由CNN参数化。此外,我们提出了一个有效的训练算法,大大减少了计算时间。我们的经验表明,我们学习的姿势估计程序可以更好地利用有限的资源,并改进了具有挑战性的数据集的最新技术。我们的方法可以对复杂算法管道进行端到端的可微训练,并学习如何最佳地利用给定的计算预算。
1 介绍
计算机视觉的许多任务都涉及到学习一个函数,通常是学习在给定输入图像的情况下预测期望的输出标签。深度学习的进步导致了在解决这些任务方面的巨大进步。特别是,卷积神经网络(CNNs)在使用梯度下降法对大型训练集进行训练时,可以很好地将预测值与真实值标签之间的预期损失降到最低。
然而,重要的计算机视觉系统采取算法的形式而不是简单的可微函数:滑动窗口搜索、超像素分割、粒子滤波和分类级联都是实现复杂非连续函数的算法的例子。
算法方法在计算预算有限的情况下特别有用:一个算法可以动态地分配其预算来解决问题的不同方面,例如,采取捷径,以便在更有希望的解决方案上花费计算时间,而牺牲不太有希望的解决方案。我们想学习算法。不幸的是,在大多数算法方法中所做的艰难决策是不可微的,这意味着这些有效算法的结构和参数不能很容易地从数据中学习。
强化学习(RL)[22]为学习算法提供了一种可能的解决方案。我们将该算法视为RL-agent的策略,即动态序列行为的描述。RL提供了一个学习这种行为的参数的框架,目标是使期望的回报最大化,例如,算法输出的准确性。我们将此观点应用于算法计算机视觉方法。特别是,我们解决了6D目标位姿估计问题,并使用RL来学习深度算法管道的参数,以在有限的计算预算下提供尽可能高的精度。
目标姿态估计是从图像中估计特定物体相对于其环境的三维平移(位置)和三维旋转(方向)的任务。这项任务在许多应用中都很重要,比如机器人和增强现实,在这些应用中,有效地使用有限的计算预算是一个重要的要求。一个特别的挑战是在杂乱无章的环境中的小的、无纹理的和部分被遮挡的物体(见图1)。
最先进的姿态系统,如Krull等人的系统。[12] 生成一组姿势假设,然后使用预先训练的CNN对每个假设进行评分。对高分假设的子集进行了细化,最终将得分最高的假设作为答案返回。从计算上讲,优化步骤是最昂贵的,并且在允许的优化数量和预期的结果质量之间存在权衡。
理想的情况下,人们可以对这种最先进的系统进行端到端的训练,以便学习如何使用最佳的优化数量来最大限度地提高姿势估计的预期成功率。不幸的是,将系统视为一个带有参数进行优化的黑盒是不可能的,原因有两个:(i)每个选择过程对于评分函数是不可微的;(ii)用于确定估计姿势是否正确的损失也是不可微的。
为了克服这些困难,我们将位姿估计重新定义为RL问题。我们将姿势推理过程建模为一个称为PoseAgent的RL agent。PoseAgent被赋予比原始系统更大的灵活性:它被赋予细化步骤的固定预算,并且允许通过选择要细化的单个姿势来操纵其假设池,直到预算用完为止。在我们的PoseAgent模型中,每个决策都遵循一个可能行为的概率分布。这种分布被称为策略,我们可以通过随机策略梯度方法来区分和优化这种连续策略[23]。由于这种随机方法的结果,最终的姿态估计成为一个随机变量,并且每次运行PoseAgent将产生一个稍微不同的结果。
这种策略梯度方法是非常普遍的,不需要使用损失函数的可微性。因此,我们可以直接获得关于预期兴趣损失的梯度,即正确估计的姿势数。由于估计梯度的额外方差[7,23],政策梯度方法的训练可能很困难[7,23],因为额外的随机性导致估计梯度的更大方差。为了克服这一问题,我们提出了一种有效的训练算法,与单纯的训练方法相比,它能从根本上减少训练过程中的方差。
我们将我们的方法与最先进的[12]进行了比较,并在精确度方面取得了实质性的改进,同时使用了与[12]相同或更小的平均精化步骤预算。总之,我们的贡献是:
•据我们所知,我们第一个将策略梯度方法应用于目标姿态估计问题。
•我们的方法允许使用与原始评估标准相对应的不可微奖励函数。
•我们提出了一种有效的训练算法,可以显著降低训练过程中的方差。
•我们对数据集的最佳发布结果进行了显著改进。
2 相关工作
下面,我们首先讨论6D位姿估计的方法,重点讨论目标坐标预测方法,然后简要回顾一下在类似环境中使用的RL方法。
2.1. Pose Estimation
6D目标姿态估计的方法有很多种。传统上,基于稀疏特征的方法[14,15]是成功的,但只适用于纹理对象。其他方法包括基于模板的方法[9,19]、投票方案[6,10]和基于CNN的直接姿势回归[8]。
我们关注对象坐标回归[3]的工作,它为我们的方法提供了基本框架。物体坐标回归最初被提出用于人体姿势估计[24]和相机定位[20]。在[3]中,随机森林为6D目标姿态预测提供了密集的像素级预测。在每个像素处,森林都会预测像素是否位于对象表面以及位于对象表面的位置。通过对一小部分像素进行采样,并将森林预测与来自RGB-D相机的深度信息相结合,可以有效地生成姿势假设。
[3,12,17]中的目标坐标回归方法通过比较渲染和观察到的图像块来对这些假设进行评分。当[3,17]使用一个简单的像素距离函数时,[12]提出了一个学习比较:CNN比较渲染图像和观察图像,并输出表示姿势空间中后验分布参数的能量值。尽管他们在特定的评分函数上存在差异,[3,17,12]使用相同的推理技术来得出最终的姿势估计:他们都细化最佳假设,重新评分,并输出最佳假设作为最终选择。我们的PoseAgent方法可以看作是该算法的一个推广,在该算法中,agent不断地选择要求精的假设,每次都能做出更明智的选择。
Krull等人的工作是与我们工作关系最密切的1。我们使用与Krull等人类似的CNN结构,将渲染和观察到的图像补丁都输入到CNN中。然而,我们使用CNN的输出作为随机策略的参数来控制姿态agent的行为。此外,虽然[12]中的训练过程被视为学习后验分布,然后在使用固定的推理程序进行测试时最大化,但是我们的训练过程却直