自动矢量化步骤_中科院自动化所申抒含：基于图像的大规模场景三维建模

最新推荐文章于 2024-05-11 11:26:40 发布

Bravo Yeung

最新推荐文章于 2024-05-11 11:26:40 发布

阅读量1.1k

点赞数 2

文章标签：自动矢量化步骤

本文链接：https://blog.csdn.net/weixin_32002829/article/details/112632159

版权

本文介绍了三维几何视觉的核心问题，重点探讨了视觉SLAM和SFM在三维重建中的应用和区别。SLAM侧重实时在线处理，而SFM适合离线重建。此外，还详细阐述了图像三维重建的基本流程，包括稀疏重建、稠密重建等步骤，并展示了相关工作进展，如基于正交最大生成树的渐进式SFM、天地融合式SFM重建等。最后，讨论了三维模型的分类、矢量化建模及其在未来的发展趋势。

摘要由CSDN通过智能技术生成

2018年7月，深蓝学院发起并承办的“第一届全国SLAM技术论坛”，邀请中科院自动化所申抒含老师作《基于图像的大规模场景三维建模》的报告。现将内容整理公布，希望更多SLAMer受益（文末有彩蛋）。

1. 三维几何视觉的核心问题

三维几何视觉是人工智能、机器人领域都会面临的问题。诸多无人设备都工作在三维的场景中，需要让计算机对三维场景有充分的感知和理解，这对机器与三维场景的交互、路径规划等至关重要。

在深度学习爆发的今天，基本上所有的二维图像的理解问题都被深度学习所统治，但在三维视觉领域,传统的三维几何视觉算法仍然占有主要地位。当然深度学习在三维视觉领域也正在蓬勃的发展，所以不排除传统算法也会被取代的可能。三维感知过程有以下两个要点：（1）空间的三维几何结构，（2）相机在空间中的六自由度位姿。这是机器人对三维场景感知、决策、动作的关键基础信息。SLAM与SFM的研究目的都是通过二维图像数据还原环境的三维几何结构，以及相机的空间位姿。

目前主要通过以下两种途径从二维图像中恢复出场景结构和相机位姿：

（1）SLAM——视觉SLAM

在线处理连续帧的图像，实时重建稀疏或稠密的场景。由于在实时计算场景结构和相机位姿的过程中，所有的信息都是来自底层二维图像的匹配，必定存在匹配的外点和误差，匹配点的分布情况也会出现各种问题。SLAM重建过程中会有闭环检测这一步骤，将误差分配至每一个相机纠正漂移。检测闭环后需要进行图优化纠正漂移，使之前建立的场景结构恢复到正常欧式空间中来。

（2）SFM——从运动中恢复结构

SFM可看作是一个离线版的SLAM，但两者技术细节上还是有差异的。SFM系统输入的图像可以是无序的，不局限于视频或连续帧。重建场景稀疏结构以及计算相机位姿的过程是离线进行的。与SLAM最大的区别是SFM是在图像采集完毕后，对图像进行完全的匹配。当场景稀疏重建已经完成，如果新的相机进入场景后，可以实时确定相机位姿，相当于SLAM中把构图与闭环检测关闭只做重定位。

这两种途径本身都是通过二维图像来还原三维场景结构以及相机的位姿的，但两者有什么具体的区别？首先SLAM来源于机器人领域，除了视觉特征之外可能会引入其他的一些传感器的信息，而SFM是计算机领域视觉领域的一个概念，完全依靠图像。如果应用要求实时在线，不能离线完成，那么只用SLAM来解决。如果可以首先离线重建，定位后续再做，同时输入的是离散的图像，则可能需要使用SFM来完成。

如果输入的是视频序列且不需要实时在线处理，原理既可以输入到SLAM系统，也可以输入到SFM系统。这时两个系统处理的能力会有什么差异？是否在任何情况下两者都可以完成重建任务？

（1）SLAM系统基本沿用如下流程。首先SLAM的匹配是局部匹配，每提取到一个新的关键帧，与此关键帧之前图像进行匹配，并进行闭环检测；根据已建地图与当前图像中的点匹配通过PNP来计算相机位姿；利用三角化产生新的地图点；调用局部的BA调整，将小范围内的所有相机位姿和所有的三维点进行一次局部的反投影误差最小化优化，使我们局部的范围内的位姿和三维点得到优化。

SLAM的闭环检测将误差分解到每个相机，发现闭环后调用Pose Graph优化相机位置T与朝向R。优化完毕后调用全局BA使整体误差最小化。由于整体优化需要考虑三维点，所以优化的目标函数自变量更多。为使初始值更好，一般先用Pose Graph优化再做全局的BA优化，完成地图构建和相机位姿的解算。

（2）SFM跟SLAM的主体思想很接近，但仍然有诸多区别。SFM图像间经过完全匹配建立关系，并不是对图像逐帧进行匹配。匹配结束后从初始两视图开始重建，初始的图像可以是任意的，两图像可以是不相邻的甚至可以相邻很远的。与SLAM不同SFM的图像已经进行过完全匹配，所以只要满足初始种子点约束即可。

种子点选择后进行重建并添加新的图像，通过PNP计算相机的位姿，三角化新的地图点，最后进行局部的BA优化。SLAM的BA优化是在小范围内做优化，而SFM则是所有的相机位姿和所有的三维点都要参与BA优化，计算量较大但这样重建的鲁棒性较高。

最后所有相机都添加完之后，会调用完整的BA优化使相机的位姿和三维点都最优并且整个场景重