【论文解读】VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detecti

最新推荐文章于 2024-09-27 20:55:18 发布

我叫两万块

最新推荐文章于 2024-09-27 20:55:18 发布

阅读量782

点赞数 31

文章标签： 3d 自动驾驶目标检测深度学习人工智能

本文链接：https://blog.csdn.net/lwk___123/article/details/136463832

版权

VIMI

摘要
引言
方法
实验
结论

摘要

在自动驾驶中，车辆基础设施协同3D对象检测（VIC3D）利用来自车辆和交通基础设施的多视图摄像头，提供了一个全球有利位置，具有丰富的道路条件语义背景，超越了单个车辆的视角。VIC3D中存在两个主要挑战：1）融合多视图图像时固有的校准噪声，这是由相机之间的时间异步引起的；2）将2D特征投影到3D空间时的信息丢失。为了解决这些问题，我们提出了一种新的三维物体检测框架，即车辆基础设施多视图中间融合（VIMI）。首先，为了充分利用车辆和基础设施的整体视角，我们提出了一个多尺度交叉注意力（MCA）模块，该模块在选择性的多尺度上融合基础设施和车辆特征，以校正摄像头异步引入的校准噪声。然后，我们设计了一个摄像头感知通道掩码（CCM）模块，该模块使用摄像头参数作为先验来增强融合的特征。我们进一步引入了具有信道和空间压缩块的特征压缩（FC）模块，以减小传输特征的大小，从而提高效率。实验表明，在新的VIC3D数据集DAIR-V2X-C上，VIMI实现了15.61%的总体AP3D和21.44%的APBEV，显著优于传输成本相当的最先进的早期融合和后期融合方法。

引言

在本文中，我们为这项新的VIC3D任务提出了一个新的框架，即车辆基础设施多视图中间融合（VIMI）。我们选择中间融合而不是后期融合，因为后者高度依赖于外部和内部相机参数的准确值。这在VIC3D任务中无法保证，因为车辆和基础设施之间存在由传输延迟和校准噪声引起的固有时间异步。如图1所示，这种时间异步和校准误差会导致相对位置检测不准确。通过专注于车辆和基础设施摄像头之间的特征级融合，可以压缩和传输从原始数据中提取的高维特征，从而缓解校准噪声的负面影响。
在这里插入图片描述

从3D空间投影到车辆（a）和基础设施（b）图像平面的标签（3D边界框）经常遭受2D图像中的地面实况和投影位置之间的未对准（如未对准的绿色边界框所示），因为校准噪声固有地存在于VIC3D数据集中不同视图的联合标记中。
具体来说，VIMI包括一个特征压缩(Feature Compression：FC)模块，该模块可以压缩从基础设施传输到车辆的2D特征，以减轻传输延迟。
然后，考虑到传感器可以在不同距离上从车辆和基础设施捕获相同的目标，我们引入了多尺度交叉注意(Multi-scale Cross Attention：MCA)模块，根据车辆和基础设施之间的特征尺度相关性来集中融合多尺度特征。
为了纠正来自多个摄像头的校准错误，基础设施和车辆的功能都通过摄像头感知通道掩模(Camera-aware Channel Masking：CCM)模块进一步增强，该模块通过学习通道掩模，遵循摄像头先验(内在和外在参数)的指导。然后，利用标定参数将精化特征转化为体素特征，并投影到三维空间中。最后将融合后的特征送入BEV空间，送入检测头进行目标检测。
为了评估，我们在最新的DAIR-V2X数据集上建立了一个新的多视角相机融合基准。实验证明，与现有的EF和LF方法相比，每个VIMI模块在减小校准误差和获得更好的预测精度方面是有效的。

贡献：

我们提出了一种新的多视角三维目标检测框架VIMI，这是第一个基于相机的VIC3D任务的中间融合方法。
我们设计MCA和CCM模块来动态增强图像特征，以获得更好的检测性能，并使用额外的FC模块来降低VIC3D系统中的传输成本。
我们在DAIR-V2X-C数据集上取得了最先进的结果，最新的VIC3D基准数据具有真实数据，其中VIMI优于现有的LF和EF方法，传输成本相当。

方法

VIMI旨在通过利用V2X通信融合车辆和基础设施的功能。它包括四个主要模块:特征压缩(FC)、多尺度交叉注意(MCA)、摄像头感知通道掩蔽(CCM)和点采样体素融合，如图2所示。在这里插入图片描述
图2。VIMI的总体框架。分离图像主干和颈部，提取车辆和基础设施图像的多尺度特征。FC模块将源基础设施特征(S inf)压缩成多尺度特征(M inf)。MCA模块通过寻找两侧的相关性来增强特征fveh/inf, CCM以相机参数(R, t, K)作为输入，根据通道关系对特征fveh/inf进行重权。最后，点采样体素融合(Point-Sampling Voxel Fusion)将图像特征f′veh/inf投影到三维空间中，生成统一的体素特征Vvic，依次应用于三维颈部和头部进行检测预测。
系统输入是一对来自车辆和基础设施摄像头的RGB图像。首先，分别从两侧的主干和2D颈部提取特征;然后将基础设施特征发送给FC模块，FC模块对基础设施特征进行压缩，传输到车侧进行特征解压缩。从解压输出中生成多尺度特征，并发送给MCA模块进行增强。然后，通过CCM模块将图像特征与相机参数进行集成。增强的特征被投影到3D体素体中，该体素体通过元素平均来聚合特征。然后，通过三维颈部将融合体素特征转换为纯电动特征。
预测结果在小车坐标系下进行，如图3所示，参数化为(x, y, z, w, h, l， θ)，其中(x, y, z)为箱体中心坐标，w, h, l为物体的宽度、高度和长度，θ为绕z−轴的旋转角度。
在这里插入图片描述
图3VIMI中坐标系统的说明来自BEV。车辆(黄色)与基础设施(绿色)通信，两个摄像头具有不同的视场。车辆坐标系以激光雷达为原点，x轴平行于地面，z轴垂直向上。图像特征需要转换成体素范围(紫色矩形)。

Feature Compression

FC模块的压缩和解压过程是一个编码器-解码器，由四个组件组成:通道压缩器(CC)、空间压缩器(SC)、空间解压器(SD)和通道解压器(CD)。CC和CD由多个卷积层组成。SC由几个步幅为2的Conv block组成，每个block后特征尺度减半。SD只是用转置卷积代替卷积。压缩率(CR)由信道压缩率(CCR)和空间压缩率(SCR)决定。SC的层数由α = log4 SCR计算

在这里插入图片描述
图4。FC模块示意图。特征fs信号通过信道压缩器和空间压缩器压缩成ft信号，传输给车辆，并通过信道压缩器和空间压缩器解码成fs信号。最后，利用几个步长为2的Conv block，可以从f S 'inf中恢复出M 'inf的多尺度基础设施特征。

Multi-scale Cross Attention

MCA模块(图5)利用多尺度基础设施和车辆特征之间的交叉关注来选择有用的多尺度特征，并包含一个多尺度(MS)块来减轻校准噪声的负面影响。多尺度特征获取每个像素周围的空间信息，并通过MS Block缩放到相同的大小(图6)。MCA采用MeanPooling运算获得不同尺度基础设施特征的表示，不同尺度的车辆特征先通过mean operation进行融合，再通过MeanPooling进行细化。为了找出不同尺度下车辆特征与基础设施特征之间的相关性，将交叉关注应用于基础设施表征作为Key，车辆表征作为Query，为每个尺度m生成关注权重ωm inf。我们计算特征之间的间积ωm inf和权重ωm inf。MCA的最终输出是增强的基础设施图像特征finf和车辆图像特征finh。
在这里插入图片描述
图5。MCA模块架构。在下分支中，车辆特征fh由fm车辆通过MS Block和Mean生成。在上面的分支中，fm通过MS Block和MeanPooling被细化为“key”，并通过MeanPooling从fh生成查询。将交叉关注的输出权值ωm∞与内积ω f M∞相结合，形成基础特征。

在这里插入图片描述
图6。MS Block每个像素特征通过DCN与周围像素的空间信息相结合，并通过UpConv块将多尺度特征缩放到相同的大小。

Camera-aware Channel Masking

假设离相机越近，获取的信息越有价值。并且考虑到相机的外在参数和内在参数会向图像特征中灌输相机距离信息，因此将相机参数作为先验来增强图像特征是很直观的。受SENet[9]和LSS[22]的解耦特性的启发，我们生成了一个通道掩码，让每个特征都知道相机参数(图7)
在这里插入图片描述
图7。CCM模块的模式。将相机的内在和外在特征编码到信道掩模中，通过内积运算将图像特征与信道掩模融合。

Point-Sampling Voxel Fusion

将增强的车辆特征f’veh和基础设施特征f’inf投影到三维空间进行融合，生成两个体素特征，分别记为Vveh和Vinf。如图3所示，我们按照DAIR-V2X-C数据集中的车辆坐标系，到体素体积的setx, y, z轴。每个体素在所有三个轴上具有相同的空间限制，可以表示为[xmin, ymin, zmin, xmax, xmax, xmax]，并且每个体素元素具有相同的大小δ = (δx， δy， δz)。因此，沿每个轴的体素数可以表示为:Np = (pmax−pmin)/δp, p = x, y, z我们从体素volumeVveh/inf中的三维坐标(x, y, z)计算feature mapf ’ veh/inf中的二维坐标(u, v)。坐标(u, v)处的深度d也可以通过变换计算出来。在这里插入图片描述
沿着相机光线的所有体素元素都按照投影原理填充相同的特征。定义与v形状相同的体素掩码Ms，表示二维坐标是否在特征图的范围内。因此点采样可以表示为
检测头的损失类似于SECOND[33]，包括边界盒Lbbox的平滑L1损失、分类lcl的焦点损失和方向Ldir的交叉熵损失。最终损失函数可表示为:L = 1n (λbboxLbbox + λclsLcls + λdirLdir)(7)，其中n为正锚点个数。

实验

在这里插入图片描述

结论

VIMI是一种新型的多视图中间融合框架，用于实现基于摄像机的VIC3D任务。为了纠正校准噪声和时间异步的负面影响，我们设计了一个多尺度交叉注意模块和相机感知通道掩蔽模块来融合和增强多视图特征。VIMI还通过特征压缩有效地降低了传输成本，并在DAIR-V2X-C基准测试上取得了最先进的结果，显著优于之前的EF和LF方法。未来的研究指出，将框架扩展到更多的数据模式。

我叫两万块

关注

31
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫