EMIFF: [2024 ICRA] 论文阅读笔记

EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection [2024 ICRA] 论文阅读笔记

EMIFF:用于车辆-基础设施协同三维目标检测的增强多尺度图像特征融合

个人拙见:新的基于摄像头的协同3D(VIC3D)目标检测框架,方法写的不够详细,相关工作概括不够具体。

摘要:

在自动驾驶中,协同感知利用来自车辆和基础设施的多视角摄像头,提供了一个超越单一车辆视角的具有丰富路况语义上下文的全局有利位置。目前,车辆基础设施协同3D (VIC3D)目标检测存在两个主要挑战:1)融合多视图图像时固有的位姿误差,这是由相机之间的时间异步引起的;2)通信带宽有限,导致信息在传输过程中丢失。为了解决这些问题,我们提出了一种新的基于摄像头的VIC3D检测框架,增强多尺度图像特征融合(EMIFF)。为了充分利用车辆和基础设施的整体视角,我们提出了多尺度交叉注意(MCA)和相机感知通道掩蔽(CCM)模块,以增强规模、空间和通道级别的基础设施和车辆特征,以纠正由相机异步引入的姿态误差。我们还介绍了一个具有信道和空间压缩块的特征压缩(FC)模块,以提高传输效率。

实验表明,EMIFF在DAIR-V2X-C数据集上实现了SOTA,在传输成本相当的情况下,显著优于以往的早期融合和后期融合方法。

1. 引言

受传感器的限制,自动驾驶汽车缺乏全局感知能力,无法对整体路况进行监控,无法准确检测周围物体,存在很大的安全风险[1],[2]。V vehicle -to-everything (V2X)[3],[4]旨在建立复杂交通环境中车辆与其他设备之间的通信系统。车辆与基础设施的合作可以显著扩大感知范围,提高感知能力[5]。双方的摄像头提供了一个全局的有利位置,具有丰富的路况语义上下文,超越了单一车辆的视角[6]。基于摄像头的车辆-基础设施协同三维目标检测(VIC3D)是自动驾驶的重要任务。

与传统的单机三维目标检测相比,VIC3D任务面临着更独特的挑战。其中一个挑战是在融合来自车辆和基础设施的多视角图像时存在固有的姿态误差[7],这是由代理之间的时间异步引起的[8]。如图1所示,这种姿态误差会导致对象和注释之间的相对位置不准确。另一个挑战是代理之间有限的通信带宽导致传输之间的信息丢失[3]。原始传感器数据具有融合所需的充足信息;但是,它需要更大的带宽,因此需要融合方法来优先考虑性能和传输成本之间的平衡。因此,解决这种跨代理感知挑战的融合方法是VIC3D的关键。

许多基于仿真数据集的V2X融合工作被提出,如OPV2V[3]、V2X- sim[9]和V2XSet[10],这些工作忽略了上述挑战,存在模拟与真实的差距。由于融合的便利性和性能优势,现有的研究大多集中在基于lidar的方法上,如原始信号的早期融合(EF)[5]、[11]、[12],特征的中间融合(IF)[4]、[3]、[13]、[14],预测输出的后期融合(LF)[5]、[15]。但由于二维图像平面与三维空间之间存在投影间隙,图像融合不能像点云那样直接。在实际场景中,dir - v2x[5]采用LF方法,将每个摄像头的预测输出结合在一起,该方法对校准很敏感,因此即使基础设施侧的预测很完美,车辆也会接受到有偏差的3D检测。

在本文中,我们提出了一个新的VIC3D框架arXiv:2402.15272v1 [cs]。2024年2月23日任务,增强多尺度图像特征融合(EMIFF)。

我们选择中间融合,因为它不高度依赖于精确的校准参数。对于特征级融合,可以对原始数据中提取的高维特征进行压缩、传输和动态增强[8],可以用来缓解位姿误差的负面影响。我们设计了压缩传输特征的模块,以降低传输成本,并在尺度级、空间级和信道级实现特征增强。

具体来说,特征压缩(FC)模块压缩从基础设施传输到车辆的2D特征。由于小尺度特征的接受野较大,理论上对微小的位置误差具有更高的容忍度,多尺度交叉注意(MCA)模块旨在实现特征之间的注意尺度特征选择。MCA还在空间级别上通过注意偏移来纠正特征,以克服由姿势错误引起的像素级偏移。为了纠正多台摄像机产生的位置错误,通过相机参数指导下的学习通道掩码(CCM)模块,进一步增强了摄像机感知通道掩码(CCM)功能。然后,利用校准参数将增强的特征转换为体素特征。最后将融合后的特征送入BEV空间,送入检测头进行目标检测。实验证明了每个EMIFF模块在减少位姿误差和获得比现有EF和LF方法更好的预测精度方面的有效性。我们提出了EMIFF,这是一个基于摄像头的VIC3D目标检测的新框架,使用中间融合方法来解决跨代理感知挑战。

•我们设计MCA和CCM模块来动态增强图像特征,以获得更好的检测性能,并使用额外的FC模块来降低VIC3D系统中的传输成本。

•我们在DAIR-V2X-C数据集(最新的VIC3D基准数据)上取得了最先进的结果,EMIFF在传输成本相当的情况下优于现有的LF和EF方法。

2. 相关工作

A. V2X协同感知

目前对V2X协同感知的研究主要集中在仿真数据集上,如OPV2V[3]、V2XSim[9]、V2XSet[10]等。现有的中间融合方法侧重于模拟点云,如V2VNet[13],它将压缩特征传输到附近的车辆,并生成联合感知/预测。DiscoNet[4]将图引入到特征融合中,并提出了在特征传播过程中突出不同信息区域的边缘权重。最近的Where2comm[11]考虑了特征的空间置信度,选择置信度高、互为补充的特征,有效节约了传输成本。FFNET[8]引入了特征流的概念来解决现实场景中的时间异步问题,尽管其适用性仅限于点云数据。与点云不同,来自车辆和基础设施的图像存在巨大的视距,需要将特征转化为统一空间进行融合。多视图图像融合的一种直接方法是后期融合,如DAIR-V2X[5],它提出了一种具有独立检测器的相机的结果级融合模型[16]。很少有方法关注相机的中频方法,特别是在真实场景中。

B. 基于摄像头的特征融合

直接预测方法通过对象查询[17]、[18]、[19]、[20]或直接在前视图像上提取图像特征[21]。DETR3D[17]使用3D对象查询的稀疏集对2D多视图图像特征进行采样,并预测集对集损失的3D边界框。PETR[19]、[20]通过将三维坐标编码为位置嵌入,将图像特征转化为三维位置感知表示。FCOS3D[21]将FCOS[22]扩展到三维检测,将三维标签转化为前视图像,直接预测三维信息。

基于升力的方法通过深度估计将特征从图像平面投影到鸟瞰图平面。

大多数方法[23]、[24]、[25]、[26]、[27]采用LSS后的2d -to - 3d变换[28],预测每个像素的深度分布,将图像特征提升为带有相机参数的截锥体特征,然后将所有截锥体飞溅成栅格化的BEV特征。BEVDepth[29]声称中间深度估计的质量是提高多视图3D目标检测的关键,并通过点云生成的真地深度增加了明确的深度监督。PON[30]学习利用图像位置与BEV位置在水平方向上的几何关系进行变换。

基于投影的方法通过3d到2d投影从图像特征生成密集体素或BEV表示[1]。ImV oxelNet[16]通过简单的元素平均聚合了几张图像的投影特征,其中空间信息可能没有得到充分利用。

基于转换器的方法[31]、[32]通过设计的BEV查询将透视图映射到BEV,并利用交叉关注和自关注将时空信息聚合到BEV查询中。由于全局注意力需要巨大的内存和较高的时间成本,因此在BEVFormer中采用了可变形注意力[31]。

3. 方法

EMIFF旨在通过利用V2X通信融合车辆和基础设施功能。它包括四个主要模块:Feature Compression (FC)、Multi-scale Cross - Attention (MCA)、Camera-aware Channel Masking (CCM)和PointSampling Voxel Fusion,如图2所示。
在这里插入图片描述

A 特征压缩

车辆和基础设施图像分别记为Iveh和Iinf,图像形状为[H × W × 3]。由于基础设施摄像机通常安装在比车辆更高的高度,导致从车辆和基础设施捕获的图像之间存在巨大的视差,因此我们分别在车辆和基础设施上使用单独的预训练主干和颈部来提取多尺度图像特征。输出的多尺度特征可以表示为f m, s = veh/inf。

EMIFF在投影后传输图像特征和相机参数,而不是体素特征,因为体素特征太大,传输效率不高。特征压缩(Feature Compression, FC)模块(如图3所示)将最大的基础设施特征f(记为f Sinf)压缩为f Tinf,将f Tinf传输给车辆,并通过解压缩重新生成多尺度特征f Minf。

B 多尺度交叉注意力(MCA)

MCA模块包含多尺度特征校正(Multi-scale Feature Correction, MFC)和多尺度特征选择(Multi-scale Feature Selection, MFS)模块,如图4和图5所示。MFC块设计用于选择和集成具有注意偏移的空间特征,因此可以在一定程度上克服位姿误差引起的像素级偏移。MFS块利用它们之间的交叉注意来实现细心的尺度特征选择。

MFC模块首先应用于多尺度特征。

由于位姿误差会导致二维平面上投影位置和真地位置之间的位移,我们对每个尺度特征应用DCN(可变形卷积网络)[33],使每个像素都能获得周围的空间信息。然后,通过UpConv块将不同尺度的特征上采样到相同的大小。

MFS采用MeanPooling运算来获得不同尺度基础设施特征的表示,而不同尺度的车辆特征先通过mean operation进行融合,再通过MeanPooling进行细化。为了找出不同尺度下车辆特征与基础设施特征之间的相关性,将基础设施表征作为Key,将车辆表征作为Query,对每个尺度m产生关注权重ωminf。

我们计算特征ω f Minf和权重ωminf之间的内积。MCA的最终输出是增强的基础设施图像特征finf和车辆图像特征fveh。

C.摄像头感知通道掩蔽CCM

考虑到靠近摄像头的物体更容易被检测到,而且同一物体离基础设施摄像头更近但远离车辆的情况很常见。由于不同的通道代表不同距离的目标信息,这些信息与相机参数有很强的相关性,因此直观地将相机参数作为先验来增强图像特征。

受SENet[34]和LSS[28]的解耦特性的启发,CCM将学习一个信道掩码来权衡信道之间的重要性。首先,将相机内部和外部拉伸成一维并连接在一起。然后,使用MLP将它们缩放到特征的维度C,以生成通道掩码Mveh/inf。最后,利用Mveh/inf逐个通道对图像特征重新加权,得到结果f ’ veh/inf。整个CCM模块可以写成:

ξ表示平面操作,⊕表示串联。

MLP的输入是摄像机旋转矩阵Rs∈R3×3、平移ts和摄像机本征k的组合。

通过几个Fully Connected (FC)层和Activation (Relu, Sigmoid)层,可以从MLP的输出Ms中获得Ms。

D. 点采样体素融合Point-Sampling Voxel Fusion

将增强的车辆特征f’veh和基础设施特征f’inf投影到三维空间进行融合,生成两个体素特征,分别记为Vveh和Vinf。投影原理的详细信息参见ImV oxelNet[16]。

通过对采样体素特征Vveh和Vinf进行平均,得到最终体素特征Vvic∈Nx×Ny×Nz×C1。然后,与[16]相同的3D颈部由3D CNN和下采样层组成,将体素特征Vvic转换为BEV特征Bvic∈NX × Ny × C2。BEV特征可以作为普通二维检测头的输入,预测三维检测结果。检测头的损失类似于SECOND[35],包括边界盒Lbbox的平滑L1损失、分类lcl的焦点损失和方向Ldir的交叉熵损失。

4. 实验

A实验细节

数据集。我们在车辆基础设施合作数据集DAIR-V2X上进行实验[5],其中所有帧都是从真实场景中捕获的。我们利用DAIR-V2X-C数据集的VIC-Sync部分进行训练和评估,该数据集由同时捕获的9,311对基础设施和车辆框架组成。

每对帧的标注都是世界坐标,需要转换到车辆坐标系中进行训练和评价。

评价指标。评估指标为平均精度(AP)[36]和平均字节(AB),用于衡量检测性能和传输成本,与[5]相同。AP指标基于车辆周围的探测距离,包括Overall (0-100m)、0-30m、30-50m和50-100m。所有指标以IoU = 0.5计算,可分为2部分:AP3D和APBEV。AB表示传输数据的平均大小。在我们的方法中,它是Tinf的特征映射。

培训。我们使用ResNet-50[37]作为主干,FPN[38]作为2D颈部提取图像特征。颈输出的通道号C为64。根据[35],[39],我们将3D体素特征C1的通道设置为64,BEV特征C2的通道设置为256。

B 目标检测结果

我们比较了基线后期融合(LF)方法与ImV oxelNet和我们提出的单边模型EMIFF V eh/Inf DAIR-V2X-C数据集的性能。我们还实现了几种基于多视图相机的方法,这些方法已经应用于nuScenes数据集[40],[36]。, BEVFormer [31], BEVDepth[29])用于VIC3D任务。DAIR-V2X-C数据集VIC-Sync部分的评估结果如表1和图7所示。从表中可以看出,与其他后期融合(LF)和早期融合(EF)方法相比,中间融合(IF)方法EMIFF在多视角相机融合基准上取得了最先进的性能。EMIFF在整体设置下获得15.61 AP3D和21.44 APBEV。

EMIFF V eh和EMIFF Inf删除了MCA模块,但保留了CCM和FC模块,以便模型可以分别应用于车辆侧和基础设施侧,而不需要它们之间的交互,并且预测可以用于后期融合。与ImV oxelNet[16]相比,EMIFF在Only-V eh、Only-Inf和LF设置下实现了更高的AP3D和APBEV。这说明EMIFF的单面模型具有更强的特征提取能力。

有趣的是,Only-Inf方法在50-100m的AP3D和APBEV中得分最高,这一现象在文献[5]中也可以看到。如前所述,这些指标与检测远离自我载体的物体有关。我们统计了距离车辆50-100m范围内的16,934个物体,用于计算50-100m AP3D的度量。在这些对象中,近四分之三(12,651)的对象更靠近基础设施摄像机,这更容易被Only-Inf模型检测到。

我们还在DAIR-V2X-C数据集上将EMIFF与一些有代表性的协同感知模型进行了比较,实验结果如表2所示。EMIFF的性能优势是显著的,它比DiscoNet[4]高出23.69%。(*表示结果来自论文[41])。

C消融实验

我们移除EMIFF中的MCA、CCM和FC模块,并将其作为消融研究的基线。我们还进行了实验来研究何时融合来自车辆和基础设施的信息。

每个成分的作用。表3总结了MCA、CCM和FC模块的消融结果。第一行模型可以表示为EMIFF B,它删除了MCA、FC和CCM模块,只将融合方法保留在特征级别。与第1行相比,第2行和第3行MCA和CCM均能较基线提高性能,MCA使AP3D和APBEV分别提高1.05和0.59,优于CCM模块引起的0.38和0.18的提高。结果表明,基于交叉注意机制,基于车辆特征在不同尺度上选择更有用的基础设施特征是有效的。FC旨在消除特征中包含的冗余信息,同时也可以提高检测性能。这是因为FC模块增加了整个网络的深度,引入了额外的计算,这可以看作是特征的细化。

V素还是BEV融合?为了研究IF方法中何时融合特征(在体素或BEV级别),我们比较了EMIFF和EMIFF BEV的性能。前者属于IF-V素线,后者属于IF-BEV融合线,将体素特征Vveh和Vinf分别浓缩为具有两个3D颈部的BEV特征,然后对两个BEV特征进行平均融合。

从结果(表4)可以看出,体素级的融合具有更好的性能,这说明从体素到BEV特征的转换会造成更高的信息损失。

D.模型能力的影响

为了进一步解释所提出模块的效果,我们将EMIFF的图像骨干和基线模型EMIFF B从ResNet-50替换为ResNet-101,以评估通过增加参数和容量可以获得的性能改进程度。表V的结果表明,更复杂的网络和更高的容量具有更好的性能,而具有更少参数和更低FLOPs的EMIFF仍然优于具有ResNet-101的基线EMIFF B。这一观察结果为支持所建议的模块的有效性提供了额外的证据。

E.特征压缩的影响

如图8所示,我们研究了通道压缩器和空间压缩器的影响。首先,我们将信道压缩率(CCR)从×1改为×64,在低压缩率下,模型性能基本稳定,表明信道压缩可以提取更多有用信息,去除冗余。当CCR达到最大值后,我们继续使用Spatial Compressor压缩特征。压缩率取值范围为×64 ~ ×16384。随着压缩特征形状越来越小,AP3D从15.33下降到12.63,但仍高于LF,传输成本下降到0.51KB,与LF的成本相当。

5. 总结

EMIFF是一种新颖的多视图中间融合框架,用于基于摄像机的VIC3D任务。为了纠正姿态误差和时间异步的负面影响,我们设计了一个多尺度交叉注意模块和相机感知通道掩蔽模块来融合和增强多视图特征。

EMIFF还通过特征压缩有效地降低了传输成本,并在DAIR-V2X-C基准测试中取得了最先进的结果,显著优于之前的EF和LF方法。未来的研究指出,将框架扩展到更多的数据模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智驾攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值