【论文简述】MVSFormer++ Revealing the Devil in Transformer’s Details for Multi-View Stereo(ICLR 2024)

本文介绍了一种名为MVSFormer++的改进方法,针对Transformer在多视图立体(MVS)中的应用进行了深入研究,通过定制化注意力机制、引入SVA和增强的代价体正则化,提升了模型性能,特别在深度估计方面取得显著进步。实验结果显示,MVSFormer++在多个基准数据集上达到最先进的水平。
摘要由CSDN通过智能技术生成

一、论文简述

1. 第一作者:Chenjie Cao

2. 发表年份:2024

3. 发表期刊:ILCR

4. 关键词:三维重建、MVS、Transformer

5. 探索动机:现有方法没有深入研究Transformer对不同MVS模块的影响,导致深度估计有限。

While transformer-based MVS approaches have made significant strides, several unaddressed challenges remain, offering opportunities for further integration of transformers and MVS learning.

  1. Tailored attention mechanisms for different MVS modules. Within the MVS learning framework, there exist two primary components: the feature encoder and cost volume regularization. These modules should not rely on identical attention mechanisms due to their distinct feature properties.
  2. Incorporating cross-view information into Pre-trained ViTs. Despite the substantial improvements that pre-trained ViTs offer in MVSFormer, there remains a need for essential feature interaction across different views. Existing cross-view pre-trained ViTs have struggled to fully address the indispensable multi-view correlations.
  3. Enhancing Transformer’s Length Extrapolation Capability in MVS. A noticeable disparity exists between the image sizes during training and testing phases in MVS. Notably, feature matching at higher resolutions often leads to superior precision. Nevertheless, enabling transformers to generalize effectively to diverse sequential lengths, akin to Convolutional Neural Networks (CNNs), poses a substantial challenge.

6. 工作目标:在MVSFormer的基础上,对Transformer设计进行了详尽的调研,以解决上述挑战。

7. 核心思想:引入了MVSFormer++,最大化注意力机制的固有特性来增强MVS各组成部分。

  1. Customized attention mechanisms: We analyzed the components of MVS and strategically assigned distinct attention mechanisms based on their unique feature characteristics for different components. The tailored mechanism improves the performance of each component for the MVS processing.
  2. Introducing SVA, a novel approach to progressively integrating cross-view information into the pre-trained DINOv2. This innovation significantly strengthens depth estimation accuracy, resulting in substantially improved MVS results based on pre-trained ViTs.
  3. In-depth transformer design: Our research delves deep into the intricacies of transformer module design. We present novel elements like 2D and 3D-based PE and AAS. These innovations address challenges of length extrapolation and attention dilution.

MVSFormer++ surpasses other competitors with a meticulously designed transformer architecture, including attention with global receptive fields, transformer learning for both feature encoder and cost volume, cross-view attention, adaptive scaling for different sequence lengths, and specifically proposed positional encoding for MVS.

8. 实验结果:

MVSFormer++ attains state-of-the-art results across multiple benchmark datasets, including DTU, Tanks-and-Temples, BlendedNVS, and ETH3D. Our model’s outstanding performance demonstrates effectiveness and competitiveness in the field of MVS research.

9. 论文&代码下载:

https://github.com/maybeLx/MVSFormerPlusPlus

https://export.arxiv.org/pdf/2401.11673

二、实现过程

1. 概述

MVSFormer通过利用预训练的ViT来增强MVS的学习过程,利用了从预训练的ViT中提取的特征与通过特征金字塔网络(FPN)获得的特征之间的协同作用。这种独特的组合对于有效地建模反射和无纹理区域证明是无价的。此外,MVSFormer通过实施多尺度训练策略,解决了训练和测试数据之间不同图像分辨率带来的挑战。除此之外,MVSFormer利用回归和分类技术的优势进行深度估计,使用交叉熵损失优化模型,同时结合基于温度的深度预期机制来预测推理期间的深度。这种整体方法提高了深度估计的准确性和鲁棒性。

MVSFormer++概述如图所示。给定N幅校准图像,包含参考图像I0,源视图图像Ii,MVSFormer++作为级联MVS模型运行,产生的深度估计范围为原始图像尺寸的1/81/1具体而言,对于特征提取,采用FPN提取多尺度特征Fi。随后,参考和源视图图像都被减半采样,并输入到具有突出的零样本跨域特征匹配能力的冻结的DINOv2中,以提取高质量的视觉特征。为了丰富DINOv2模型的交叉视图信息,提出了侧视图注意力(SVA)机制,并进行了归一化2D PE和自适应层缩放增强。对于代价体正则化,应用基于圆锥体位置编码(FPE)和注意力缩放模块(AAS)增强的自适应的代价体Transformer(CVT),在1/8粗阶段实现深度初始化。

2. 特征编码器Transformer

侧视图注意力(SVA)。为了从不同的视角有效地获得广泛的全局上下文信息,利用SVA进一步增强多层DINOv2特征,表示为FilSVA作为一个side-tuning模块,即它可以独立训练,不需要通过冻结的DINOv2的任何梯度。为了通过注意力模块学习交叉视图信息,交错的自注意力和交叉视图注意力主要有利于源特征,源特征学习聚合参考特征以获得更好的特征表示。相比之下,参考特征只需要由自注意力模块编码即可。进一步的研究表明,自注意力模块对于来自DINOv2的源特征是不必要的。因此,在DINOv2SVA中,分别对参考视图和源视图的特征进行自注意力编码和交叉注意力编码,如下图所示,这样可以节省一半的计算量,而且性能没有明显下降。随后,在交叉注意力的特征聚合之后,通过自适应层缩放将来自层L+1的新的DINOv2特征添加到下一个SVA块的输入。在上采样到1/8尺度后,进一步将两个额外的SVA块合并到归一化二维位置编码的高分辨率特征中。请注意,本文系统地验证了SVA的几种注意力机制。值得注意的是,线性注意力优于其他注意力。这强调了当与DINOv2特征的特征级聚合相结合时,线性注意力的有效性。此外,线性注意力固有的鲁棒性允许它优雅地适应不同的序列长度,有效地克服了在MVS中与普通注意力相关的限制。

归一化二维位置编码(PE)尽管DINOv2已经包含了1/32的尺度特征的位置编码(PE),进一步丰富了为SVA量身定制的位置线索。这种增强有助于学习1/8尺度的高分辨率特征。与Chen等人(2022)的原则一致,实现了一种线性归一化方法,以确保高度和宽度位置的测试最大值等于训练阶段使用的一致尺度,具体设置为(128,128)。这种简单而有效的归一化二维位置编码在进行高分辨率图像测试时已经证明了其产生稳健深度估计结果的卓越能力。

归一化和自适应层缩放(Norm&ALS)。为了响应在DINOv2多层特征中观察到的大量方差,在SVA模块之前应用LNs对所有DINOv2特征进行归一化。此外,所有SVA区块都基于Pre-LN,它对注意力和FFN块之前的特征进行归一化,而不是像Post-LN那样在残差相加之后。Pre-LN具有更显著的梯度更新,特别是在训练时用于多层注意力块此外,引入了可学习的ALS乘归一化DINOv2特征,自适应调整不稳定冻结DINOv2层特征的重要性。Norm&ALS组合显著增强了多层Transformer块叠加时的训练稳定性和收敛性。值得注意的是,在MVSFormer++中,可学习系数Sl都初始化为0.5,强调了DINOv2中经验验证的对后一层的影响。

VA vs Intra, Inter-Attention。尽管在使用自注意力和交叉注意力方面有一些相似之处,但SVA在目的和实施上都与Intra, Inter-attention不同。最关键的区别是SVA对DINOv2(1/32)和粗MVS(1/8)都执行交叉视图学习特征,而Intra, Inter-attention仅考虑粗的MVS特征。对于DINOv2特征,SVA被专门设计为不通过冻结DINOv2梯度传播的侧调模块,有效地将交叉视图信息整合到单目预训练ViT
中。进一步提出了ALS自适应学习各DINOv2层的重要性,同时采用Pre-LN提高训练收敛性。对于粗MVS特征,强调归一化二维位置编码提高了高分辨率MVS的泛化。还忽略了来自DINOv2源视图的特征的自注意力,以简化具有竞争性性能的模型。

3. Transformer代价体正则化

纯Transformer块(CVT)能胜过3DCNN吗?代价体正则化作为去噪器过滤来自编码器的噪声特征相关。以前的大多数工作都利用3DCNN来降噪这种代价体特征,而一些基于Transformer的方法也建立在局部的基于窗口的注意力上。相反,在这项工作中进行了全面的研究,将整个噪声代价体视为一个全局序列特征,然后通过基于普通注意力的纯Transformer对其进行处理。具体来说,首先对4D组代价体相关通过一层无重叠的块卷积,步幅[2,4,4],C∈C×D×H×W,C = 64。然后将代价体特征重新排列为(C × DHW)的形状,DHW可以看作是Transformer块学习到的全局序列。多亏了高效的FlashAttention, CVT消除了普通注意力的二次复杂度。与3DCNN相比,堆叠了6层标准的Post-LN-based Transformer块,其计算能力具有竞争力。最后,用另一个不重叠的转置卷积层将输出特征上采样到原始大小,以实现沿所有假设的深度逻辑。

一些关于CVT的细节。首先,线性注意力在CVT中的表现非常差,这表明特征级聚合不适合学习点积之后的相关特征。而且,只在第一个粗阶段使用CVT,而在其他细阶段使用CVT会导致性能明显下降。在级联模型中,只有第一级是完整连续的3D场景,而D中同一di内的所有像素共享相同的深度假设平面。因此,代价体的完整性和连续性是释放CVT能力的关键因素。

圆锥形位置编码(FPE)。为了增强模型在各种图像分辨率下的泛化能力,我们首先通过在每个场景预定义的最近和最远深度平面上构建的锥状空间,将代价体的3D位置P∈3×DHW归一化到[0,1]3范围内,如下图所示。然后分别应用一维正弦函数PE沿着x, y, z维度,并将它们编码为每个轴的C通道。随后,将所有这三个PE维度连接成形状为(3C × DHW)的FPE,并应用1×1卷积层将它们投影到与(C×DHW)相同的代价体特征通道上。然后将该预测FPE添加到代价体特征中。FPE可以帮助模型捕捉3D场景中的绝对位置和相对位置,这对于提高CVT的深度估计至关重要。请注意,FPE仅适用于CVT的第一阶段代价体,而zero padding-based 3DCNN已经为其他阶段获得了足够的位置线索。

自适应注意力尺度(AAS)。FPE不足以使CVT推广到各种代价体长度。如下图所示,分析了主要发生在NLP中的注意力稀释现象。在CVT中,代价体的训练序列长度在6000左右,而测试长度则显著增加,从27,648到32,640不等。因此,softmax运算后的关注分数明显被稀释,使得聚合特征无法聚焦到正确的目标值上。因此,对于具有高分辨率图像的MVS,注意力稀释会影响CVT的性能。一个简单的解决方案是直接在高分辨率图像上训练CVT,但它会导致令人望而却步的计算,并且对于更大的测试图像仍然缺乏泛化。Su(2021)提出了一个观点,应该将注意力得分的不变熵保持为:

其中qi, kj为查询和关键特征;ai,j为查询I和关键j的注意力得分;Hi是查询i的熵;n为序列长度;λ是注意力尺度。为了使Hi独立于n,可以实现由Su(2021)证明的λ = κ logn/d ,其中κ是一个常数。因此可以将注意力表述为:

其中d是特征通道。注意,默认的注意力尺度是λ =1/√d。根据经验设定κ=√d/logn,其中n为多尺度训练过程中特征的平均序列长度。因此,通过AAS增强的CVT训练接近于具有默认注意力尺度的普通Transformer训练,同时它可以自适应调整不同序列长度的尺度,以在推理过程中保持不变熵,如下图所示。

​4. 实验

4.1. 实现细节

在DTU数据集上训练和测试了MVSFormer++,以五视图图像作为输入。和MVSFormer一样,网络适用32-16-8-4逆深度假设的4个从粗到精的阶段。采用相同的多尺度训练策略,分辨率从512扩展到1280。由于DTU数据集主要由具有相同相机位姿的室内物体组成,为了增强模型对室外场景的泛化能力,例如Tanks-and-Temples和ETH3D数据集,对结合DTU和BlendedMVS的混合数据集进行微调。具体来说,在DTU数据集上使用Adam训练MVSFormer++10次,学习率为1e-3。然后,在混合DTU和BlendedMVS数据集上对MVSFormer++进行了额外10个epoch的进一步微调,学习率降低到2e-4。

4.2. 与先进技术的比较

DTU:首先将测试图像的大小调整为1152 × 1536,并将视图数N设置为5。然后使用现成的Gipuma融合深度图来生成稠密的所有扫描的都有相同超参数的三维点云。

4.3. 消融实验

5. 限制

虽然MVSFormer++具有强大的MVS能力,并且在实验中得到了验证,但它仍然存在与其他从粗到精的MVS模型相似的局限性。具体来说,对于微小前景,粗阶段会不可避免地进行误差估计,导致后续阶段的误差累积。设计一种新的动态深度区间选择策略将是解决这一问题的一种潜在方法。由于一些工作已经研究了这个问题,将它们与本工作结合起来可以被视为未来工作。

  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

华科附小第一名

您的支持对我的前行很重要!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值