slam14讲之13讲--建图

最新推荐文章于 2024-05-23 07:35:02 发布

vigigo

最新推荐文章于 2024-05-23 07:35:02 发布

阅读量2.3k

点赞数

分类专栏： SLAM c++ 文章标签：计算机视觉自动驾驶深度学习

本文链接：https://blog.csdn.net/qq_40574123/article/details/122704408

版权

SLAM 同时被 2 个专栏收录

13 篇文章 5 订阅

订阅专栏

c++

12 篇文章 0 订阅

订阅专栏

论文推荐：

块匹配度量方法：1）Evaluation of cost functions for stereo matching
我们会倾向于使用概率分布来描述深度值（1、极线搜索中，有太多峰值，到底谁才是正确的？；2、Maybe，我们没办法对所有的像素点都做匹配来估计深度，这样no-realtime）。对像素点深度的估计，本身亦可建模为一个状态估计问题。对于滤波器求解这个问题来说，将首先假设深度服从什么样的分布：1）Svo: Fast semi-direct monocular visual odometry；2）Video-based, real-time multi-view stereo；3）Semi-dense visual odometry for a monocular camera
单目稠密重建实践中使用的数据集– REMODE的测试数据集。它提供了一架无人机采集的单目俯视图像，共有 200 张，同时提供了每张图像的真实位姿。来自于：1）Real-time camera tracking:When is high frame-rate best?；2）Remode: Probabilistic, monocular dense reconstruction in real time,
稠密建图的过程中，我们会将深度视作一种概率分布，从而作出假设。将u，v作为定值，视d服从某种分布（在前面的章节中，我们经常用一个点的世界坐标 x; y; z 三个量来描述空间点，这是一种参数化形式。），这也是一种参数化形式。逆深度（Inverse depth）是近年 SLAM 研究中，出现的一种广泛使用的参数化技巧（逆深度即深度的倒数，用高斯分布来表示逆深度的效果更好）。：1）Unified inverse depth parametrization for monocular slam；2）Inverse depth parametrization for monocular slam
更加符合实时地图建立需要的方法（在实际环境中，运动物体的普遍存在，使得点云地图变得不
够实用）：八叉树。1）Octomap: An efficient probabilistic 3d mapping framework based on octrees

建图

首先来看地图的用处有哪些：

定位。定位是地图的一个基本功能。在VO部分，我们可以利用稀疏地图来实现定位（就像人看到一个路标，从而确定自己的方位）。更进一步，我们还希望能够把地图保存下来，让机器人在下次开机后依然能在地图中定位，这样只需对地图进行一次建模，而不是每次启动机器人都重新做一次完整的 SLAM。
导航。导航过程，需要知道地图中哪些地方不可通过，而哪些地方是可以通过的。那这就需要稠密地图，且包含纹理信息。
避障。它与导航类似，但更注重局部的、动态的障碍物的处理。
重建。可以利用 SLAM 获得周围环境的重建效果，并把它展示给其他人看。
交互。交互主要指人（机器人）与地图之间的互动。

立体视觉

我们将，单目相机利用三角化、双目相机利用视差计算像素深度的方法进行的稠密重建，这种方式称为立体视觉（Stereo Vision）。
使用 RGB-D 进行稠密重建往往是更常见的选择。而单目双目的好处，是在目前 RGB-D还无法很好应用的室外、大场景场合中，仍能通过立体视觉估计深度信息。

单目

在前文中，我们提到过单目相机计算深度的方法——三角测量，但这是基于描述子匹配的。但是我们知道，描述子的计算与匹配是相当耗时的，在稠密地图中，便是需要对每个像素点进行计算匹配，显然这并不实时。因而，我们提出：如何快速匹配？

极线搜索与块匹配

在这里插入图片描述
简单介绍原理：在得到位姿估计的前提下，1、假设我们在一帧中只估计5到50米范围内的像素的深度（只绘制这个范围的地图）。那么如图，p1对应的空间点一定在O1p1射线上，由于我们假设了深度范围d，由相似性可知，在平面2上，必然有与其对应的一条有限长线段，2、且空间点P在成像平面O2上的坐标也应该在这条直线上（极线） 。从头（5m处）开始搜索，直到找到最为相似的点 ，这个过程称为极线搜索 ，3、再应用三角测量。
我们关注到，前文提到“最为相似的点”，怎样判断呢？在直接法的讨论中我们也知道，比较单个像素的亮度值并不一定稳定可靠。我们在 p1 周围取一个大小为 w × w 的小块，然后在极线上也取很多同样大小的小块进行比较 ，就可以一定程度上提高区分性。这就是所谓的块匹配。
最后，如何计算小块与小块间的差异呢？存在若干种不同的计算方法：

SAD(Sum of Absolute Difference)。顾名思义，即取两个小块的差的绝对值之和：
SSD。 SSD 并不是说大家喜欢的固态硬盘，而是 Sum of Squared Distance(SSD)（平方和）的意思：
NCC(Normalized Cross Correlation)（归一化互相关）。

另外，除了这些简单版本之外，我们可以先把每个小块的均值去掉，称为去均值的 SSD、去均值的 NCC 等等。相关论文，有放在文章最前面。

深度滤波器（很重要）

这里我们要使用很多次三角测量让深度估计收敛，而不仅是一次。我们希望深度估计，能够随着测量的增加，从一个非常不确定的量，逐渐收敛到一个稳定值。这就是深度滤波器技术。
为了方便叙述，假设我们用了 NCC，那么，我们将得到一个沿着极线的 NCC 分布。这个分布的形状严重取决于图像本身的样子，例如图 13-3 那样。在搜索距离较长的情况下，我们通常会得到一个非凸函数：这个分布存在着许多峰值，然而真实的对应点必定只有一个。在这种情况下，我们会倾向于使用概率分布来描述深度值，即P(d)，而非用某个单一个的数值来描述深度。于是，我们的问题就转到了，在不断对不同图像进行极线搜索时，我们估计的深度分布将发生怎样的变化——这就是所谓的深度滤波器。

在这里插入图片描述
设某个像素点的深度 d 服从高斯分布（在一次深度求解过程中，这个分布就是可求的）：

而每当新的数据（类似的）到来，我们都会观测到它的深度。同样的，假设这次观测亦是一个高斯分布：

于是，我们的问题是，如何使用观测的信息，更新原先 d 的分布。这正是一个信息融合问题。根据附录 A，我们明白两个高斯分布的乘积依然是一个高斯分布。设融合后的 d的分布为 N(µfuse; σfuse 2 )，那么根据高斯分布的乘积，有
在这里插入图片描述
回到13.4中，我们如何从深度求解过程中，得到这个分布的µ; σ（均值和方差）。
文献[3] 考虑了几何不确定性和光度不确定性二者之和，而 [2] 则仅考虑几何不确定性。我们暂时只考虑由几何关系带来的不确定性。现在，假设我们通过极线搜索和块匹配，确定了参考帧某个像素在当前帧的投影位置。那么，这个位置对深度的不确定性有多大呢？
在这里插入图片描述
考虑某次极线搜索，我们找到了 p1 对应的 p2 点，从而观测到了 p1的深度值，认为 p1 对应的三维点为 P。从而，可记 O1P 为 p， O1O2 为相机的平移 t，O2P 记为 a。并且，把这个三角形的下面两个角记作 α; β。现在，考虑极线 l2 上存在着一个像素大小的误差，使得 β 角变成了 β′，而 p 也变成了 p′，并记上面那个角为 γ。我们要问的是，这一个像素的误差，会导致 p′ 与 p 产生多大的差距呢？
我们来列写这个量之间的几何关系。显然有：
在这里插入图片描述
对 p2 扰动一个像素，将使得 β 产生一个变化量 δβ，由于相机焦距为 f，于是：

由此，我们确定了由单个像素的不确定引起的深度不确定性。如果认为极线搜索的块匹配仅有一个像素的误差，那么就可以设：在这里插入图片描述
当然，如果极线搜索的不确定性大于一个像素，我们亦可按照此推导来放大这个不确定性。接下来的深度数据融合（更新µ; σ），已经在前面介绍过了。在实际工程中，当不确定性小于一定阈值之后，就可以认为深度数据已经收敛了。
综上所述，我们给出了估计稠密深度的一个完整的过程：
在这里插入图片描述