小小谭读论文(二)

博主是中海大计算机研0,目前方向是MVS三维重建
今天我们要读的论文是 :《Constraining Depth Map Geometry for Multi-View Stereo:A Dual-Depth Approach with Saddle-shaped Depth Cells》该文章收录于ICCV2023

Abstract

基于深度学习的MVS方法面临着预测出深度图来达到一个准确和完整的3D表示,尽管有着优秀的性能,现今存在的方法忽略了这样一个事实即一个合适的深度图对于MVS来说也是身份重要的。在这篇文章中,我们证明了不同的深度几何有着显著的性能差异,即使使用相同的深度预测误差。因此,我们介绍了一个理想的深度几何,这个深度几何由鞍形细胞组成,其预测的深度图围绕GT表面情况上下震荡,而不是保持一个连续的且光滑的深度平面。为了达到以上所述,我们提出了一个由粗到细的框架称为DMVSNet,它可以产生震荡的深度平面,从实现上说我们为每一个像素预测两个深度值,并且提出一个新的损失函数和一种约束预测深度几何的棋盘形选择策略。和已经存在的方法相比,DMVSNet在DTU基准上获得了很高的排名并且在Tanks和Temples场景挑战下达到了最高的性能,这证明了它的强大性能和泛华能力,我们的方法也为MVS中考虑深度几何指明了一个新的研究方向。

Introduction

MVS是一个重要的技术,弥合了二维照片线索和三维空间信息之间的差距,它使用多张2DRGB图像和他们的相机参数来重建3D场景表示,这里有许多的MVS应用,例如自动驾驶到虚拟现实,即使传统的MVS方法已经达到了很高的性能,许多基于深度学习的方法已经证明了他们优秀的能力来处理低纹理和重复图案区域以实现更加准确和完整的重建。
通常来说,使用基于学习的MVS方法技术来重建一个场景包含两个步骤深度预测和融合渲染。基于学习的方法主要关注于优化深度预测的过程来提供一个准确的深度图以用于后续的的融合渲染,因此,基于学习的MVS重建任务可以被看做是一个深度预测的任务。最新的相关工作已经提高了深度预测的准确性通过增强特征匹配和代价体正则化。此外,相关技术例如可变形卷积与注意力机制已经应用与获得准确的深度图,然而,我们在获取准确深度图发现了有趣的现象:具有较小估计误差的深度图在融合渲染后可能无法实现更好的三维重建质量,难道有其他因素限制了3D重建的精确度吗?在对聚变过程进行彻底调查后,我们发现深度几何是一个在MVS中重要且被忽视的因素,不同的深度几何几何形状存在这显著的性能差距,即使对于同一深度评估误差的情况。因此值得考虑的是什么构成了良好的深度几何形状。
为了解决这个问题,就想图一中山治的那样,我们引入了两个理想的深度几何表示两种极端的情况由单侧单元格组成的几何形状与由鞍形单元格组成的几何结构,前者具有与GT表面在同一侧的深度平面与此同时,后者在表面的两侧来回振荡,为了评估这些深度几何在3D重建时的影响,我们人为的控制预测平面的单元并保证在预测方面相同的深度误差,有意思的是,我们发现鞍形单元显著的提高了3D重建的性能,相对于单侧形状单元来说。我们将这种性能改进归因于融合渲染阶段期间的深度插值操作,其对深度单元高度敏感。鞍形单元可以缩小预期的插值深度误差并且增强3D重建的性能。我们提出一种新的方法来获得鞍形深度单元。
拥有鞍形单元的深度几何要求在振荡模式中对深度值进行预测,然而,由于表面连续的先验,神经网络往往给场景预测出一个光滑连续的深度图。我们提出一种新的方法叫做Dual-Depth,它给每一个像素都预测了两个深度值,为了达到一个振荡的深度几何,我们首先分别约束两个深度值的预测误差,以确保他们都尽可能的接近GT,随后,1我们联合的优化这两个预测的深度,通过限制他们之间的预测深度之间的间隔来优化他们,同时提出了一个新的checkboard(棋盘?)选择策略来结合两个深度值来获得最终的深度图。通过嵌入上述的Dual-Depth方法进入到由粗到细的框架,我们提出一个新的MVS网络叫做DMVSNet。
我们实时了延伸实验来证明鞍形单元深度几何结构对MVS的适用性以及我们提出的方法的有效性。由于Dual-Dept方法,DMVSNet在室内数据集DTU和室外数据集中的性能优于大多数方法,在更加具有挑战性的数据集上(Advanced Tanks and Temple),DMVSNet实现了最先进的性能,提升了5.6%。这些结果都强调了深度几何对于MVS人物的重要性同时证明了我们提出的方法在提高3D重建的准确度方面是有效的。除此以外,我们的方法为未来的研究在这项工作中,我们介绍了一种在MVS中考虑深度几何的新视角。我们首次提出了鞍形单元的深度几何,并证明了其对MVS重建任务的重要性。从技术上讲,我们提出了双深度方法来实现鞍形单元,并设计了提供了一个新的方向。其中可以利用深度几何来增强重建性能。响应网络框架DMVSNet。在双深度方法的帮助下,DMVSNet在DTU数据集上实现了最高性能,在Tanks和Temple数据集上达到了最先进的性能

Relative Work

Traditional MVS这里有四种传统的MVS方法,这些方法可以基于他们的输出被分为:基于点云,基于体素,基于网格和基于深度图。在他们之中,深度图的方法将重建任务分解成两个部分,深度预测和融合,由于深度预测可以并行进行并且仅仅要求视图的子集,基于它的方法更加灵活。在获得所有预估的深度图后,使用融合过程来生成3D的点云表示,这是在MVS领域和应用上最为通用的。
Learning-based MVS.尽管传统的MVS方法证明了他们的优势,但他们依赖于手工相似性的度量,相反,先前的工作例如surfacenet和MVSNet利用神经网络的力量来生成潜在的团并且从数据中学习度量,MVSNetMVSNet[39]介绍了一种基于学习深度图的流水线并且广泛运用与之后的工作。R-MVSNet[40]提出了关于效率的成本正则化的递归结构。[16,38,7]提出了基于管道的从粗到细的框架。深度预测的两个重要组成部分是特征匹配和代价正则化提高特征表示的质量可以使两个组件都受益,并且最近的研究关注于这一方面。可变形卷积[34,9]和注意力机制[9,4]等技术已被用于获得更精确的深度图,从而提高重建质量。然而,准确的深度图并不是唯一的决定因素。在本文中,我们将证明以前被忽视的深度几何也是至关重要的。
**Depth prediction.**除了多视角深度预测,还有两种其他类型:单视角深度预测[25,33,11,36]和立体深度预测[18,20,5]。
前者通常用于视觉效果,由于其固有的不适定性,不需要高度准确的深度图。后者由于极线约束而更准确,可以应用于运动传感游戏和自动驾驶。然而,对于需要精确和完整的深度图的应用,例如3D重建,可以通过使用多视点深度预测来减轻立体深度预测中固有的阴影问题。在MVS的背景下,尽管许多研究都集中在深度图的质量上,但据我们所知,没有人强调估计深度的几何形状的重要性,这是本文所关注的。在这里插入图片描述

Motivation

Estimated bias and interpolated bias

给定参考图像在这里插入图片描述以及它的原图像在这里插入图片描述以及通过图像匹配方法估计的它们各自的相机内部和外部参数,,MVS方法预测出一个深度图并且在这里插入图片描述在这里插入图片描述与I对其。深度图随后进行过滤并且被用于去融合3D点云与相机内外参数。
在如图二展示的融合过程的期间,使用所估计的深度图将参考视图中的像素投影到空间中的3D点上。然后使用其他视图中的子像素各自的的相机参数将该3D点重新投影到子像素上,并且相应的深度图被用于获得新的3D点,最后的3D重建结果由参考视图中的像素深度和其他子视图中的子像素的估计深度来确定。因此,3D重建的结果的准确度不仅仅收到预估深度图的准确率同时也取决于子像素的插值深度的精度。子像素深度是通过线性插值相邻像素的深度来估计的,其精度收到估计偏差和深度单元的影响,图片4展示了插值深度的准确性会由于深度单元的不同,即使在相同的估计偏差和插值的情况下,插值深度的精度可能会发生变化。因此去思考MVS的不同单元的深度几何结构是非常重要的。(学习一下几何一致性)
在这里插入图片描述

One-sided V.S. Saddle-shaped

在这里插入图片描述
在这里插入图片描述

为了简要说明深度单元的差异,我们在图3中给出了两个假设的深度单元a) One-sided
cells; b) Saddle-shaped cells,我们假设具有相同绝对估计偏差1的插值位置是均匀分布的,深度平面(黄色)和地面实况平面(蓝色)之间的空间体积可以被认为是预期的绝对插值误差,从数学上来说,“单侧单元”的预期绝对插值误差是“鞍形单元的四倍”。为了定量证明不同单元的深度几何对三维点重建性能的影响,我们进行了toy验证试验。
在假设每个像素的绝对估计偏差相同的情况下,我们使用真实深度翻转估计的深度值,使其根据图中所示的两个单元分布,表1中的实验结果证明,具有不同单元的深度几何形状具有对3D重建质量产生重大的影响包括准确性和完整性,即使精度差异超过60%(表1中的第二行和第三行)。这表明鞍形单元的深度几何形状是提高MVS性能的可行方法。
大多数存在的MVS方法没有使用在深度单元的限制,因此,它们的深度图分布在由单侧细胞和鞍形细胞组成的几何形状之间,它决定了3D点重建的精度,该精度介于由奇异单元组成的两个理想几何形状的性能之间(这里应该指的是重建效果也不上不下)。此外,在没有深度单元约束的情况下,尽管深度预测性能更好,但可能获得较差的3D度量(表2)。我们如何约束网络以生成具有更多鞍形单元的深度图?在上述玩具实验中,使用地面实况翻转估计深度的方法是一个鸡和蛋问题,在实际推理中是不可行的。在下一节中,我们将介绍一种双深度预测来解决这一难题

Dual-Depth Prediction

Review of learning-based MVS

在传统的基于学习的MVS管道中,一个权重共享的CNN用于提取特征图在这里插入图片描述在这里插入图片描述![在这里插入图片描述](https://img-blog.csdnimg.cn/1b142221d4e240038196084604e64e8e.png在这里插入图片描述在这里插入图片描述并与原图像I对齐,H,W,F分别代表高度、宽度和特征图的一系列通道,像素的深度假设d通常平均的在A1\A2中进行采样,使用深度假设,以及相机内参举证K和外参举证T,利用可微单应变换构造特征体V在3D空间中,在深度d处,第k个视图和参考相机截头体之间的单应性矩阵由下式给出:
在这里插入图片描述
对于像素在这里插入图片描述在参考图像中的,深度d出的第k个视图的图像中的变换像素为在这里插入图片描述
特征体积是通过将特征图从源图像扭曲到参考相机平截头体来构建的,每个像素和它们在不同深度假设下的变换像素根据等式(上述),通过对由测量特征体相似性而产生的代价体进行正则化,就可以得到概率体
在这里插入图片描述位于参考视图中坐标(x,y)处的像素的深度可以通过使用以下内容来获得在这里插入图片描述
Loss function在传统的MVS方法中,L1损失用来监测预估出来的深度图D通过函数
在这里插入图片描述
Dg代表GT深度图,Lest旨在缩小预估深度图和GT深度图之间的差异,从而减少预估偏差。然而,它缺乏强制执行估计深度的几何形状的能力,更不用说预测鞍形深度图了。此外,鞍形单元深度图的目标与Lest的目标不一致,这鼓励估计的深度图接近地面实况的平滑深度图

Dual-Depth

针对具有更多鞍形单元的振荡深度几何,我们选择为每个像素预测两个深度值,如果双重深度分布在地面实况深度的两侧,则启发式选择策略可以实现目标几何形状
具体来说,我们为每个像素生成两个概率分布,并使用他们生成两个相应的深度图D,为了保证独立的预测双深度的准确性,我们使用L1损失来监测他们预测的值,正如前面的工作一样,直观来说,没有增加对于双深度的联合分布限制,预测的结果分布是无序的,因此我们提出一个新的损失来限制两个深度对称分布在GT的周围
在这里插入图片描述
where |·| indicates the absolute distance,max(·)和min(·)取沿第一维度的最大值和最小值,max(D) = max(D[1, :, :], D[2, :, :]).Lint鼓励估计偏差不大于max(D) −min(D)|使得间隔随着估计的偏差增加而增加,这保证了双重深度分布在GT的任一侧If max(D) =min(D) = Dg, Lint reaches the minimal value, suggesting an unbiased depth estimate and is consistent with theobjective of Lest.
当真实深度值介于预测的双深度之间时,我们提出了一种棋盘选择策略来为每个像素选择合适的深度预测值。具体来说,我们在选择最大和最小预测深度值之间交替,创建类似棋盘的分布如图5(a)所示,像素(x,y)的深度由
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其生成振荡深度图D,如图6所示,通过双深度方法获得的深度图实现了由鞍形单元组成的几何形状
在这里插入图片描述
框内的深度图是平滑的,表明预测值接近地面实况。同时,其相应的深度几何呈现鞍形,这与我们的预期一致
然而,上述的方法可能带有潜在的风险,它有可能增加深度预测的错误当真正的在(x,y)的深度值不再min(D)(x,y)和max的范围内时,为了解决这个问题,我们建议使用级联双深度,这将在下一节中进行说明

Cascade Dual-Depths

尽管在双重深度中,令人鼓舞的估计偏差不大于|max(D)−min(D)|当估计的偏差过大时,就会出现未发现的问题这超出了|max(D)−min(D)|的范围原因是深度假设α2-α1的固定范围导致了较大的深度估计偏差,直观地说,当像素的估计深度不可靠时,应该增加深度假设的范围,以确保搜索空间中包括地面实况,相反,可以适当地缩小范围以获得更可靠的估计。例如,UCS Net[7]利用概率分布的方差来反映不确定性,并动态调整相应采样深度的深度假设范围,从而产生较小的估计偏差。受其启发,我们试图利用不确定性估计来自适应地调整深度假设的搜索范围,我们首先采用概率分布的方差来获得置信图,类似于UCS Net(如图所示)。第7(a)段)。然而,通过方差获得的置信图往往预测大多数区域的相似置信水平,这使得预测弱纹理区域或边缘的置信水平变得不可靠。此外,由于每个像素预测双重深度,因此在两个对应的置信值之间存在推断冲突。因此,我们需要找到一种合适的方式来表示对偶深度的不确定性,而不仅仅依赖于概率分布。
在这里插入图片描述
在日常生活中,当人们用尺子测量一个物体时,通常会进行两次测量并比较结果。如果两个测量值之间存在较大差异,则认为测量的精度较低。类似地,在双深度估计中,如果像素预测的最大和最小深度值之间的差异较大,则我们认为估计偏差较大。因此,该像素的深度搜索空间将在下一次迭代中扩大,为了自适应地调整深度假设的范围,我们使用max(D)(x,y)和min(D),给定深度假设的范围,我们可以构建所描述的特征量、成本量和概率分布根据第4.2节中概述的原理,我们计算了精细的双重深度D′,然后根据等式使用该深度来获得最终深度
**Confidence Map.**置信度图用于融合过程中,以使用阈值来掩盖深度显著偏离的像素,从而防止它们投影到3D空间中。在本文中,置信度由
在这里插入图片描述

DMVSNet

为了将我们的双双深度方法嵌入到多视点立体(MVS)任务中,我们提出了一个从粗到细的MVS框架,称为DMVSNet。如图8所示,双深度结构通过可微分翘曲被纳入深度回归阶段
在这里插入图片描述
具体而言,我们采用特征金字塔网络(FPN)[21]来提取CasMVSNet[16]等多尺度特征,并将输出通道加倍以获得级联双深度的特征图。然后,我们通过均匀采样的深度假设对特征图进行扭曲来构建特征体。然后使用相似性度量(例如基于内部产品的度量)将特征量聚合为成本量。三维CNN用于将成本量转换为概率分布。为了获得双重深度D,我们将3-D CNN加倍以获得两个概率分布,并使用等式生成深度图。(3)。我们使用自适应采样的深度假设重复该过程,以生成精细的双深度D′,该深度D′用于使用棋盘选择策略构建最终深度Dr。
我们分别采用Lest和Lint来减少估计偏差和插值偏差。由于插值偏差是由子像素的深度误差引起的,我们还监督坐标(x+0.5,y+0.5)处的子像素深度。最终损失函数为
在这里插入图片描述
其中Lsub(D),Dg)=L1(con(D)、Dg),con(x)建议用棋盘选择策略构造深度图,并且表示取坐标(x+0.5,y+0.5)处的子像素。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值