论文笔记——Regression Forest Based RGB-D Visual Relocalization Using Coarse-to-Fine Strategy
文章摘要
视觉重新定位在计算机视觉和机器人技术中起着重要作用。但是,特征上的歧义使其仍然具有挑战性。在本文中,提出了一种新颖的基于回归森林的视觉重新定位方法,该方法以从粗到精的方式执行。使用拓扑回归树来预测摄像机所处位置的“粗略”子场景。接下来采用像素坐标对应回归树来完成相机像素坐标预测。通过仅考虑预测子场景中的预测,执行了“精细”摄像机重新定位,同时进一步使用图像分割来完善像素坐标预测,这有助于生成更好的姿势假设。
背景
~~~~ ~~~ 随着科技的发展,通过机器人进行导航的应用越来越广泛。为了实现导航的目的,在许多机器人应用中都需要实时定位和制图系统(SLAM系统)。在许多SLAM系统中,视觉重定位起着关键性的作用。它将通过将当前观察结果与全局地图进行比较来估计摄像机(机器人)的全局位姿,由于保证机器人在导航或制图中位姿追踪是非常必要的,所以目前对视觉重定位的方法进行了广泛的研究。当前使用较为广泛的方法是将手工特征的的3D世界坐标与其特征描述子直接存储在全局地图中,然后通过特征检索和PnP方法来确定相机位姿。然而手工视觉特征坐标的直接应用遭受视觉歧义的严重困扰,并且根据其描述子获取坐标并不容易。因此如何缓解特征歧义问题是实现视觉重定位中需要解决的一个重要问题。
具体方法
A.回归模型训练
~~~~ ~~~ 用RGB-D摄像机扫描环境后,世界坐标预测问题通常可以描述为回归模型。考虑到视觉特征的歧义,将回归模型构造为 :
其中其中I表示RGB图像,D是深度图像,p是2D像素坐标, m p m_p mp是p的对应3D世界坐标,θ是模型参数集。在训练阶段,{p, m p m_p mp}是成对的训练数据,其中根据训练RGB-D序列的地面真实姿态获得。在回归过程中,本质上就是构建回归模型以学习和之间的对应关系,用来预测p的3D世界坐标。
通过提取从训练序列中采样帧的SURF特征和相应的3D世界坐标来训练点回归树,提取PHOG特征和相应的3D世界坐标以及时间戳来训练拓补回归树。
B.候选子场景预估
~~~~ ~~~ 在训练阶段,训练序列中的所有帧都被馈送到拓扑回归树中。首先,为每个帧 I k I_k Ik计算PHOG描述符 G k G_k Gk。然后,训练样本集可以表示为:
其中 t k t_k