1 摘要
实时3D感知系统中几何的表示仍然是一个关键的研究问题。 密集地图捕获完整的表面形状,并且可以使用语义标签进行扩充,但是它们的高维度使得它们在存储和处理时计算成本高,并且不适合于严格的概率推理。 稀疏的基于特征的表示避免了这些问题,但仅捕获部分场景信息,并且主要仅用于定位。
我们提出了一种新的简洁但密集的场景几何表示,它以单个图像的强度数据为条件,并由包含少量参数的代码生成。 我们的灵感来自于图像学习深度和自动编码器的工作。 我们的方法适用于基于关键帧的单眼密集SLAM系统:虽然每个带编码的关键帧都可以生成深度图,但代码可以与姿势变量一起有效地优化,并与重叠关键帧的编码一起优化,以实现全局一致性。 调整图像上的深度图允许编码仅表示不能从图像直接预测的局部几何的方面。 我们将解释如何学习编码表示,并展示其在单眼SLAM中的有利特性。
2 引言
在这项工作中,我们通过在深度图像上训练自动编码器来实现密集场景几何的更通用的紧凑表示。 虽然简单的自动编码器可能会过度简化自然场景的重建,但我们的关键新颖之处在于调整强度图像的训练。 我们的方法计划适合基于通用且高度可扩展的基于关键帧的SLAM范例[16,9],其中场景地图由一组选定和估计的历史相机姿势以及相应的捕获图像和补充本地信息组成,例如 深度估计。 强度图像通常需要用于附加任务,例如用于位置识别或可视化的描述符匹配,因此可用于支持深度编码。
因此,关键帧的深度图估计变为相应强度图像和未知紧凑表示(此后称为“代码”)的函数。 这允许紧凑的深度表示而不牺牲重建细节。 在推理算法中,代码可以用作几何的密集表示,并且由于其有限的大小,这允许对多个重叠关键帧的相机姿势和密集深度图的完全联合估计。 我们可能会想到提供局部细节的图像和提供