视觉三维重建colmap框架的现状与未来

本文链接：https://blog.csdn.net/qq_15642411/article/details/136392784

文章探讨了三维重建技术的发展历程，特别关注了离线方案中的商业软件（如Photoscan,ContextCapture,Inpho,Pix4D）和开源框架（如openmvg,colmap）的兴起。近年来，随着AI技术的推动，nerf和gaussiansplatting对colmap的影响被提及，同时也讨论了colmap在AR应用中的角色以及存在的问题，如处理大规模数据时的性能瓶颈和优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

注：该文章首发3D视觉工坊，链接如下3D视觉工坊

前言

众所周知，三维重建的发展已经进入了稳定期，尤其是离线方案的发展几乎处于停滞期，在各大论刊上也很少见到传统sfm+mvs亮眼的文章。这也不难理解，传统的多视图几何内容已经被展现的体无完肤，即使能做出一些impressive创新，也需要非常坚厚的数学基础。这里就公布一些主流的离线视觉三维重建商业和开源的框架问世时间：

商用：
（1）Photoscan（现在称为Agisoft Metashape）的首个版本于2010年发布。
（2） ContextCapture 是由Bentley Systems开发的软件，首个版本发布于2015年。
（3) Inpho 是由Trimble开发的软件，发布时间比较早，但具体时间可能因版本而异。Trimble公司在2008年收购了Inpho公司，因此在此之前的版本应该是由Inpho公司发布的。
（4）Pix4D是一家提供专业无人机图像处理软件的公司，其软件可用于生成高质量的地图和模型。Pix4D软件的首个版本于2011年发布。
开源：
（1）openmvg 是2012年发布，应该是最早的且最具有代表性的三维重建框架。
（2）colmap是2016年发布的，一问世便处于巅峰位置，目前来看，仍然是处于incremental sfm 的榜首。
（3）除了openmvg和colmap ，还有ODM、opensfm、theiasfm、alicevision等这些都差不多在colmap 问世的前后时间。

据上可见，不管是商用的还是开源的都距现在已经有10多年左右的时间了，这10年商用软件早已经稳定且难以突破，国内三维重建方面的厂商更是数不胜数，同时利用这些开源框架去做一些有意义的产品是一件非常大的挑战且需要很长时间的积累与思考。

colmap 目前的现状

近两年AI技术的火热尤其是nerf和gaussian splatting 的出现，又将colmap推了一把，传统mvs的地位仿佛受到了挑战，虽然说nerf/gs的效果是无法胜任传统mvs的精度，但是作为"看看"的条件，是远远足够了。且传统重复纹理、low texture 如水、玻璃这些难以重建的场景也被nerf/gs解决。而目前来看，开源的大多数nerf/gs框架的输入几乎都是colmap的sfm的结果（这里重申一下并不是nerf/gs的输入必须是colmap，也可以是vslam的结果也可以是一些商业软件的结果），使用colmap的原因很简单：开源SOTA且容易安装。

图1. Gaussian splatting结果除此之外，colmap被偏爱的一个领域是AR方面，AR的核心是空间计算，即VPS（Visual positioning System)。而视觉定位的基石在于定位地图的构建，而目前大多数的公司的AR定位地图的构建都是基于sfm的路线。如以下公司：

（1）韩国maxst

图2. maxst vps pipeline maxst使用的方案是：Insta360 pro 全景相机 + sfm 建图(全景拆分为若干个pinhole)。

（2）Blue Vision Labs–(Lyft收购）

图3. Blue vision vps pipeline Blue vision的方案：车载8个fov 70度的相机，建图使用sfm pipeline 并且使用openmvg框架，单次定位返回时间970ms(4G)。

（3）香港neogoma

图4. neogoma vps neogoma的方案：手机扫描 + web sfm 建图路线。

存在的问题与未来

不管是colmap(sfm)是用来作为nerf/gaussian splating从业从人员的输入源，还是作为AR众包地图的构建，还是用来4D时空标注的辅助，在使用的时候难免会处理大场景数据而不是简单的跑一个小数据来作为demo展示。通常这个时候很多问题就随即出现，人们就开始抱怨：为什么colmap如此慢？它的bottlenecks是什么？为什么会出现drift？为什么车载数据就跑了两帧程序就终止？为什么...?等等让人哭笑不得的问题。如果你不是一个三维死忠爱好者或者只是想要把数据快速处理完毕，那么针对以上的抱怨解决方法不需要你去深究colmap的源码，痛苦的去improved,只需要调参也可以达到你的目的。

对于调参人员来说：
（1）为什么colmap如此慢?
如果你的数据是车载数据即forward motion，那么其实local ba 足够，不需要太频繁的global ba(众所周知ba的复杂度是(camera_params+6N+3n)^3，因为每次新加入的图像主要和其周围的地图有关系。所以调整mapper以下参数即可：

i.减少ba_global_max_refinements次数 (5改为1）
ii.增大模型增大到一定比例触发global ba的参数
Mapper.ba_global_images_ratio 、 Mapper.ba_global_points_ratio 、Mapper.ba_global_images_freq
（2）为什么车载数据就跑了两帧程序就终止？
如果你的数据质量不佳或者是车载数据，车载数据是比较困难处理的，因为baseline短且图像两边的特征消失的很快，这个时候采用默认参数去跑，通常会出现初始化完后就终止了程序，这个时候就要调小初始最小三角化角度Mapper.init_min_tri_angle（默认16调成5）。
对于研究源码的人员来说，colmap的improved方面数不胜数，离一个可用的状态需要做很多的工作：
（1）关于相机模型的选择，在处理数据的时候，如果相机模型选择简单的，会造成欠拟合，出现blend map之类的现象，如果选择复杂的相机模型就会出现不收敛的情况。
（2）关于匹配方面，colmap中匹配有词汇树匹配方法，但是deep learning的方法已经完全超越BOW，如可以用netvlad、cosplace近几年的方法来替换传统的检索方式。
（3）关于view graph,特征检测和匹配完后，会生成view graph，这时候并不是一股脑就去sfm,view graph 的优化既可以减少冗余，也可以改善整个网形，提升sfm的鲁棒性。

图5.view graph

（4）关于dirft问题，控制点（GCP）/gps约束都可以很好的改善，这个问题已经在三年前colmap课程中讲过,当然在加入外部约束的时候，less is more的约束同时也会增添不少风采，如sift的feature scale 定权可以很明显的降低误差，如图6：

图6.左边是feature sclae和右边没有feature scale

（5）关于colmap 慢的问题，这便是pipeline的问题，采用分组sfm便可解决，整个过程是：view graph 聚类分组–>每个组内 local sfm --> local sfm merge 。做好分组sfm的基本是local sfm 足够的鲁棒。

图7.vismap 11095张鱼眼sfm结果（不同颜色代表分组）

（6）关于colmap 鲁棒性方面，对于forword motion数据，p3p/pnp的效果并不一定好，这个时候采用hybird方式不免是一种明智的做法，流程是：先rotation averaging 然后采用p2p解算pose,具体参见HSfM: Hybrid Structure-from-Motion(崔海楠)的工作。初次之外，也可以在rotation averaging后，利用得到全局rotation 和pnp解算的r进行约束，也就是除了重投影误差，还有图像对之间Rotation的惩罚项。

（7）关于colmap sfm的评判机制/标准，目前所有的论文最终评判sfm的metric都是：track length、重投影误差、3D点个数、每张影响的2D点个数，但是重投影误差是无意义的，即使重投影误差很小，sfm也会出现dirft，因为3D点是源于pose和匹配点，Pose dirft会造成3D点不是"真",那么投影回来误差自然也不会大，所以选择一个合理的metric是值得思考的。