StaticFusion: Background Reconstruction for Dense RGB-D SLAM in Dynamic Environments 论文笔记

StaticFusion: Background Reconstruction for Dense RGB-D SLAM in Dynamic Environments 论文笔记

摘要

稠密RGB-DSLAM 检测移动目标并重建背景和结构

利用RGB-D图像对估计相机位姿的同时估计当前帧动/静态概率分割该分割然后用于加权密集RGB-D融合,以估计仅环境的静态部分的3D模型。通过利用3D模型进行帧到模型对齐,以及静态/动态分割,相机运动估计减少了整体漂移,并且对场景中的动态存在更加鲁棒。

创新点:

  • 一个新的公式,同时估计相机的运动和分割当前帧内的静态对象。
  • 仅融合时间一致数据的稠密建图系统(即,它存储过去静态的有用信息)

框架和符号

系统的输入是一堆RGB-D图像,同时利用RGB图像计算图片的强度图
在这里插入图片描述

首先,每个输入对(强度图ID,深度图ZD)通过在背景点的3D坐标上应用KMeans被分割成K个几何聚类C = {Ci,i = 1,…,K}。为了降低总的计算复杂度,假设每个聚类表现为刚体,这允许我们以聚类方式而不是以像素方式来解决静态/动态分割问题。这是一个可以接受的近似值,因为我们对估计运动物体的精确运动不感兴趣,而是专注于构建场景中静态结构的保守重建。

其次,通过在构建到该点的静态场景的当前地图内的先前相机姿势估计处放置虚拟相机来渲染人造图像对(IM,ZM)。

在给定当前图像(ID,ZD)和最后预测(IM,ZM)的情况下,我们的新步骤是联合获得摄像机运动ξ∈Se(3)和两个时间实例之间的基于运动的场景分割。每个集群i被分配一个对应于动态水平的得分bi∈[0,1]:b‘1对应于静态集群,b’0对应于移动集群,0<b<1对应于中等不确定性水平。

在计算联合估计问题的解之后,使用簇和分数来计算属于背景的每个点的每像素分割图像BD,该图像与当前颜色和深度图像(CD,ZD)一起用于加权3D融合。
框架:
在这里插入图片描述
图1:属于一个新的图像(CD,ZD)对每个像素分组得到几何聚类C。根据模型和前一帧的姿态估计T(ξ)进行预测(CM,ZM),并用于联合对准和背景分割。然后利用这两个结果对CD、ZD的静态聚类与地图进行加权融合。

相机运动和场景分割的联合估计

为了估计这两个联合性质,我们提出了一个基于两个能量项最小化的新公式:

在这里插入图片描述

其中b代表整个集合的分数。D(ξ,b)通过仅对属于静态簇的像素强制光度和几何一致性来编码直接图像对齐。第二项S(B)补充D(ξ,b),当它们的残差很高时,强制将集群分割为动态的,反之亦然。它还包括空间正则化,以鼓励对簇的平滑分割,并利用先前的几何知识来帮助优化收敛到正确的最小值。接下来,我们给出了D(ξ,b)和S(B)的公式,并描述了如何解决全局极小化问题。

A.相机运动

对于每个新的RGB-D对,通过最小化当前RGB-D图像和从地图获得的最后一次预测之间的几何和光度学重投影误差来计算相机的增量运动。各重投影误差(或残差)定义为

在这里插入图片描述

xp为2D像素p点坐标,|·|z表示三维点的z坐标。π表示根据相机针孔模型将3D点投影到图像平面上

T(ξ)∈SE(3)是与扭曲ξ有关的齐次变换。warp函数由下式给出:

在这里插入图片描述

我们公式的创新点在于使用分数b对这些残差进行加权,以便只有与场景的静态部分相关联的残差才具有较高的贡献:

在这里插入图片描述

其中N是像素的总数,bi§是指包含p的簇i的分数。由于几何项和强度项用不同的单位计算误差,参数αi重新缩放强度项,以使其在尺度上具有与几何项类似的效果。函数F®是柯西稳健惩罚函数:

在这里插入图片描述

其中,c表示F®的拐点,并控制残差的稳健最小化程度。最后,WZ和Wi根据测量的噪声(σZ和σI)对光度和几何残差进行加权,并对通过高空间或时间梯度观察到的遮挡和不连续进行处罚:

在这里插入图片描述

在(7)和(8)中,参数KZσ和Kiσ控制噪声相对于导数的相对重要性

B.静态/动态分割

(1)中第二项的目标是将具有平均高残差的集群归类为动态的,将具有低残差的集群归类为静态的。其基本思想是,具有高残差的集群是其相对于相机的相对运动与相机运动本身不一致的集群。为了贯彻这一概念,我们必须量化什么是“高残差”。

我们的假设是,大的残差对应于显著高于参数c的残差,即位于函数F®的平坦一侧的残差(见图2)。以下术语在总体最小化问题中设置此阈值:

在这里插入图片描述

每个簇i中的总像素数由ki表示,并且ˆc>c是启发式选择的阈值,其定义低残差和高残差之间的边界。当簇i的平均残差高于ˆc时,该项与(5)的组合基本上鼓励bi尽可能低(到最小0);否则它支持较高的bi的值(到最大值1)。

在这里插入图片描述

在(10)中,Gij是连通性图:当簇i和j在空间中相邻时等于1,否则等于0。参数λR相对于其他项加权SR(B)。

最后,我们添加了一个几何约束,它利用了这样一个事实,即移动的对象不会出现在我们的地图中,因此ZD和ZM之间的深度差异对于移动的集群来说将非常高。此约束表示为分段先验:

在这里插入图片描述

其中,Kp控制实施动态评分的深度差应该有多高,而λP是在整体优化中对此约束进行加权的参数。诚然,(11)与(5)有一定程度的冗余,然而,(12)不像(7)和(8)那样在没有任何预加权的情况下直接计算深度差。这为移动物体的存在提供了额外的证据。上述三个术语仅依赖于b。为清楚起见,我们将它们归类为在(1)中使用的组合术语S(B):

在这里插入图片描述

C.求解

由于(1)涉及直接的图像对齐,整个最小化问题必须在一个从粗到精的方案内解决。这意味着构建一个图像金字塔,并将它们从最粗到最细对齐。在金字塔的中间层获得的分割被存储并用于在下一层初始化求解器,从而允许算法收敛到在金字塔的不同层的正确分割。

在每个水平上,项D(ξ,b)是关于ξ的非线性和非凸项。然而,组合优化问题是凸的,并且可以关于b解析地求解。因此,我们使用迭代重新加权最小二乘(IRLS)来最小化(1)相对于摄像机运动ξ,并且在每次迭代IRLS算法之后得到b的闭合解。在求解器中将ξ与b解耦使我们能够有效地计算每个步骤的解,而这两个步骤的紧密交替导致良好的收敛速度

基于Surfel的3D重建

在每个时间步,我们的系统接受最后的RGB-D对(CD,ZD)以及属于背景的每个点的每像素分割图像BD作为输入。为了可视化的目的,我们保持了融合的颜色模型,但在渲染图像预测时,我们将其转换为强度。

我们采用与[1]、[4]相同的方法进行预处理和数据关联。不同的是,我们提出了一种策略来判断每个surfel是否保存,以便使模型能够删除那些与动态输入点匹配的surfel。我们的融合方法在算法1中列出,并在下面解释。

在这里插入图片描述

A. Surfel可行性

如果一个Surfel被反复观测到并与静态输入点匹配,则认为它是可行的。只有在这种情况下,我们才强加w→1。

为了实现这一点,每个新的Surfel被引入到具有低可行性w→0的模型中。在随后的观测中,通过匹配输入点的(log-odds)对数赔率概率的移动和来更新w。这种策略适用于我们的应用,因为可行性只有通过重复匹配静态点数(BID>0.5)才会增加,而随着动态匹配(BID<0.5)会自动减少:

在这里插入图片描述

B.融合

在融合过程中,使用加权平均方案来更新Surfel的位置、颜色和法线。除了强度BD,我们还使用两个额外的权重来表示每个输入点的质量:

在这里插入图片描述

虽然第一项基于更接近相机中心的测量更准确的假设来权重点,但第二项惩罚了在快速运动期间记录的点的影响,这将在模型中引入模糊。

C.Surfel移除

去除连续10帧以上w<0.5的冲浪。我们还执行自由空间违规检查,以删除保留在可行Surfel前面的点数。这确保了动态对象和噪声测量从地图中移除,并长期保持环境结构的清晰表示。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值