[IJCAI 2024] | BRGScene: 桥接Stereo和BEV特征用于可靠的语义场景补全

Paper | Code

本文是对IJCAI2024接受的文章 BRGScene: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion的介绍,BRGScene在SemanticKITTI基准测试中超过了其他基于相机的方法,实现了精确的几何和语义建模。代码已开源,欢迎大家试用和Star~
请添加图片描述

Motivation

3D语义场景补全(SSC)作为一种不适定的感知任务,需要从有限的观察中推断出稠密完整的3D场景。由于固有的几何模糊性和不完整的观察,以前的基于摄像机的方法难以预测准确的语义场景。

在这里插入图片描述

Method

我们采用立体匹配(stereo matching)技术和鸟瞰图(BEV)表征学习来解决 SSC 中的此类问题。立体匹配与BEV表征相辅相成,前者通过外极约束减轻了几何模糊性,后者通过全局语义信息增强了对不可见区域的补全能力。然而,由于立体几何和 BEV 特征之间存在固有的表征差距,要在 SSC 的 "密集预测任务 "中弥合这两者之间的差距并非易事。因此,我们进一步开发了一个统一的Occupancy框架,称为BRGScene,它能有效地将这两种表征与密集的三维体积结合起来,从而完成可靠的语义场景。

在这里插入图片描述
如图所示, BRGScene旨在仅从 RGB 图像中推断稠密的三维几何和语义信息。该架构主要包括两种volume表征的构建,以及为缩小表征差距实现细粒度可靠感知设计的Mutual Interactive Ensemble(MIE)模块。

双向交互组合模块(MIE)用于在像素级可靠地聚合立体几何和 BEV 特征。在 MIE 模块中,采用了双向可靠交互模块(BRI),通过置信度加权进行特征可靠度增强,并鼓励通过相互引导进行细粒度交互。此外,还引入了双体积聚合模块(DVE),通过通道重新校准和多组特征投票来促进互补聚合。

  • 双向可靠交互模块 BRI
    在这里插入图片描述
    对于像素级可靠的交互,我们提出了一种交互方式,有选择地检索可靠的信息及其对应的体积。如上图所示,我们设计了一个双向可靠交互模块(BRI),通过交叉注意机制,交互式地指导其反面的可靠预测。对于立Stereo Volume,我们首先在空间和深度维度上进行扁平化,获取其用于注意力机制的Q、K和V。同样,对于BEV Volume也进行相应操作。
    为了进一步检索像素级可靠信息,我们设计了一种深度置信过滤策略,该策略显式地利用了volume背后的可靠几何信息。我们的目标是利用其深度置信度信息来执行交叉注意操作。特别是,为了将体积投影到置信图中,我们首先采用softmax将深度代价值di转换为概率形式,然后取出沿深度维度的所有深度假设平面中最高的概率值作为预测置信度:
    C S = W T A ( ϕ ( V S t e r e o ) ) = W T A { exp ⁡ ( d i ) ∑ j = 1 D m a x exp ⁡ ( d j ) } , {\textbf{C}_S= WTA(\phi ( \textbf{V}_{Stereo} )) = WTA \left\{ \frac{\exp(d_i)} {\sum_{j=1}^{D_{max}}\exp(d_j)} \right\},} CS=WTA(ϕ(VStereo))=WTA{j=1Dmaxexp(dj)exp(di)},

接下来,我们将置信图构造的像素级可靠信息注入到检索交叉注意力机制中:
C r o s s A t t ( Q S , K B , V B ) = ϕ q ( Q S ) ⊙ C S ( ϕ k ( K B ) T V B ) , { CrossAtt(Q_{S},K_{B},V_{B} ) = \phi_q(Q_{S}) \odot \textbf{C}_S ( \phi_k{ (K_{B}) }^{T} V_{B} ),} CrossAtt(QS,KB,VB)=ϕq(QS)CS(ϕk(KB)TVB),
通过这种方式,BEV Volume检索了Stereo Volume中的相关可靠信息,从而为BEV的特征提供了补充。同样,Stereo Volume经过堆成操作可以检索 BEV Volume中的相关信息,以鼓励可靠的几何信息交换。

  • 双体积聚合模块DVE
    在这里插入图片描述

如上图所示,DVE模块的主要目标是利用不同表征的优势优势并促进互利互补。体积特征首先被送入残差三维 CNN 进行正则化和通道调整,并通过通道重校准和多组特征投票进一步处理:
z c = 1 D × H × W ∑ d = 1 D ∑ i = 1 , j = 1 H , W V f ( d , i , j ) , \textbf{z}_c = \frac{1}{D\times H\times W} \sum_{d=1}^D \sum_{i=1,j=1}^{H,W} \textbf{V}_f(d,i,j), zc=D×H×W1d=1Di=1,j=1H,WVf(d,i,j),

V f ′ = σ ( W 2 δ ( W 1 z c ) ) ⋅ V f , \textbf{V}_f ' = \sigma(\textbf{W}_2\delta(\textbf{W}_1 \textbf{z}_c))\cdot \textbf{V}_f , Vf=σ(W2δ(W1zc))Vf,

Experiment

  • 定量实验
    在这里插入图片描述
    我们的BRGScene和其他基线方法相比在SemanticKITTI取得了SOTA性能,明显优于之前最先进的方法VoxFormer-T。虽然VoxFromer-T最多采用4个时间帧立体图像对作为输入,但我们的方法在mIoU测试中具有显著优势。值得注意的是,我们的方法在预测动态小尺度物体方面具有显著的优势,比如:自行车(1.00→3.40)、摩托车(0.70→2.40)。我们将这种改进归功于两种volume表征的聚合,这对三维几何建模是至关重要的。

  • 定量实验
    在这里插入图片描述
    由于真实场景的复杂性和标签的稀疏性,要准确、完整地重建场景具有挑战性。与VoxFromer-T和VoxFromer-S相比,我们的方法明显捕获了更好的几何表示,以便更完整和精确的场景重建(如第1、2行的十字路口),并在相机视野外的区域得到更适当的补全结果(如第2、3行的阴影区域)。

  • 泛化实验
    在这里插入图片描述
    我们进一步在nuScenes验证集上进行了BEV 3D检测的初步实验结果。具体来说,我们采用BEVDet 作为基线设置,并在保持检测头的同时,用我们提出的BRGScene替换BEVDet模型。注意,我们采用来自当前和以前图像的时间输入来构造时间体积,它取代了原来的立体体积。实验结果表明我们提出的方法也可以应用于更广泛的下游任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值