一、图像单应性概述
论文提出了一个深度卷积神经网络来估计一对图像之间的相对单应性。我们的前馈网络有 10 层,以两个堆叠的灰度图像作为输入,并产生一个 8 自由度的单应性,可用于映射从第一个图像到第二个图像的像素。我们为 HomographyNet 提出了两种卷积神经网络架构:一个直接估计实值单应性参数的回归网络,以及一个在量化单应性上产生分布的分类网络。我们使用 4 点单应性参数化,将一个图像的四个角映射到第二个图像。我们的网络使用扭曲的 MS-COCO 图像以端到端的方式进行训练。我们的方法无需单独的局部特征检测和转换估计阶段即可工作。我们的深度模型与基于 ORB 特征的传统单应性估计器进行了比较,我们强调了 HomographyNet 优于传统技术的场景。我们还描述了由深度单应性估计提供支持的各种应用,从而展示了深度学习方法的灵活性。
稀疏的 2D 特征点是大多数现代 Structure from Motion 和 SLAM 技术的基础。 这些稀疏的 2D 特征通常称为角点,在所有几何计算机视觉任务中,必须平衡角点检测方法中的误差与几何估计误差。 即使是最简单的几何方法,例如估计两个图像之间的单应性,也依赖于容易出错的角点检测方法。
从一对图像估计 2D 单应性(或投影变换)是计算机视觉中的一项基本任务。 在以下场景中,单应性是单目 SLAM 系统的重要组成部分:
仅旋转运动、平面场景、物体离观察者很远的场景。
众所周知,关于两个围绕相机中心旋转的图像的变换是单应性,单应性对于创建全景图是必不可少的也就不足为奇了。 为了处理平面和大部分平面场景,流行的 SLAM 算法 ORBSLAM 结合使用单应性估计和基本矩阵估计。 基于平面结构和单应性的增强现实应用已得到充分研究。 使用平面结构的相机校准技术也依赖于单应性。