我们提出了PatchmatchNet,一种新的、可学习的拼接匹配级联公式,用于高分辨率多视点立体视觉。由于计算速度快,内存需求低,PatchmatchNet可以处理更高分辨率的图像,比使用3D成本体积规则化的竞争对手更适合在资源有限的设备上运行。我们首次在端到端可训练体系结构中引入了一种迭代多尺度Patchmatch算法,并对其核心算法进行了改进,提出了一种新的、可学习的自适应传播和每次迭代的评估方案。大量的实验表明,我们的方法在DTU, Tanks &Temple和ETH3D,但其效率明显高于所有现有的顶级模型:至少比最先进的方法快2.5倍,内存使用量少两倍。
Motivation
给定一组已知摄像机参数的图像,多视角立体成像(MVS)描述了重建观测场景稠密几何的任务。尽管MVS是一个已经研究了几十年的几何计算机视觉的基本问题,但它仍然是一个挑战。这是由于在实践中出现了各种事实上尚未解决的问题,如遮挡、照明变化、无纹理区域和非朗伯曲面。
卷积神经网络尽管在基准测试级别上取得了成功,但它们中的大多数只对可伸缩性、内存和运行时给予了有限的关注。
基于学习的MVS方法构造一个三维成本量,用三维CNN正则化,并回归深度。由于3D cnn通常需要耗费大量的时间和内存,一些方法在特征提取过程中对输入进行向下采样,同时计算低分辨率下的代价量和深度图。然而在低分辨率下提供深度图会损害精度。
一些传统的MVS方法完全放弃了保持结构化成本量的想法,而是基于创新