点云与RGB融合相关论文

难题:传感器在工业生产领域应用广泛,但不同类型的传感器有各自的优势与弊端。因此,研究基于多种传感器的数据融合已经成为一个新的研究方向。利用具有互补特性的传感器数据进行融合和分析,可以增强感知能力,完成更为精准的决策和评估。目前的融合方法存在数据表示效率低、异构特征对齐不准确等问题,导致融合精度差、效率低。

  1. LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion

难题:目前先进的多模态方法主要是进行全局融合,即在整个场景中融合图像特征和点云特征。这种做法缺乏细粒度的区域级信息,产生次优的融合性能。

  提出了一种新颖的 LiDAR-相机 融合网络 LoGoNet。这是一种在局部和全局两个层面上进行 LiDAR-相机信息融合的方法。在全局融合方面,在先前工作的基础上,通过添加点质心来更精确地表示体素特征的位置,从而实现更好的跨模态对齐。在局部融合方面,首先将每个 proposal 划分为均匀的网格,然后将这些网格中心投影到图像上。围绕投影的网格点的图像特征被采样,与带有位置信息的点云特征融合,最大限度地利用 proposal 周围丰富的上下文信息。此外,还提出了特征动态聚合模块,用于实现局部和全局融合特征之间的信息交互,从而产生更具信息量的多模态特征。

在文章中提到的“region proposal network” (RPN) 是一种深度学习模型,用于生成物体检测任务中的初始候选区域(即bounding box proposals)。RPN从输入的特征图中提取出可能包含物体的区域,它通过滑动窗口的方式遍历整个特征图,并预测每个窗口的位置是否可能包含一个目标,同时给出该区域的边界框坐标。图中RPN的作用是在提取的分层体素特征上生成初始的bounding box proposals B={B1,B2,...,Bn}B = \{B1, B2, ..., Bn\}B={B1,B2,...,Bn},这些bounding box随后会被进一步处理和优化,用于3D物体检测。

  1. Cross Fusion of Point Cloud and Learned Image for Loop Closure Detection

创新点:

交叉融合策略:设计了一种交叉融合策略,实现了点云和图像之间的充分交互,使信息在融合过程中能够双向流动。

处理不对称数据:利用特征间的关系来处理不对称的点云和图像数据,并且在测试时不依赖于精确的对齐。

  1. RI-Fusion: 3D Object Detection Using Enhanced Point Features With Range-Image Fusion for Autonomous Driving

难点在自动驾驶中,三维目标检测已成为环境感知不可或缺的一部分。光探测和测距(激光雷达)点云往往不能区分结构相似的物体,并且对于晕距离或小型物体非常系数,从而导致错误和遗漏的检测。目前的融合方法存在数据表示效率低、异构特征对齐不准确等问题,导致融合精度差、效率低。

解决方法:

为此,提出了一种称为距离图像融合(RI-Fusion)的即插即用模块,以实现激光雷达和相机数据的有效融合,旨在通过现有的主流基于激光雷达的算法轻松访问。在这个过程中,设计了一种图像和点云对齐方法,通过球坐标变换将点云转换成紧凑的距离视图表示。

该框架中的核心RI-Fusion模块可分为三个组件。

1)数据预处理将点云和RGB图像输入转换为适合融合网络的格式;

2)提出了融合距离和RGB图像特征的RI-Attention网络;

3)点云恢复将融合特征转化为点云。

点云被转换成距离视图表示,以更有效地和有规律地表示信息。与其他投影方法不同,距离视图保留所有原始信息,并在实际自动驾驶场景中产生较少的损失。此外,使用这种方法转换的距离视图是激光雷达的密集表示,具有类似于RGB图像的特征。因此,深度特征可以使用2D卷积层快速学习。因此,转换的距离图像更有利于与RGB图像进行特征融合。

编码器模块的每个层都利用一个池化层来执行下采样并从不同的接收域提取特征。然后使用自适应池将RGB图像特征转换为范围特征的大小。最后,生成相同尺寸的距离特征(Rf)和图像特征(Ip),并输入RI-Attention模块进行特征融合。融合输出的射频和被称为RI功能(RIp)。可以使用RI-Attention模块重复这一过程以提取多尺度特征。Rf通过扩展卷积和池化层永久提取高语义特征,用于下采样结果。RI还涉及特征提取后的下采样操作,然后将两个特征馈入另一个Rl-Attention模块。由于在执行RI-Attention后输出大小与输入大小相同,因此可以在网络的每个位置添加融合模块,以在不同尺度上实现范围和RGB特征的融合。

  1. 3D Vehicle Detection Using Multi-Level Fusion From Point Clouds and Images

难点:由于缺乏纹理信息,基于点云的方法对遮挡和远处车辆的检测存在很多缺失,对形状相似的物体的检测存在高置信度的错误,这对交通安全构成了潜在威胁。

方法:提出了一种基于点云和图像的三维车辆检测多级融合网络。融合网络包括三个阶段:点云和图像的数据级融合、点云分支体素和鸟瞰(BEV)的特征级融合、点云和图像的特征级融合。此外,提出了一种新的粗-精检测头,该头模拟了两级检测器,在编码器上生成粗建议,在解码器上细化建议。

Voxel Grid:体素网格是当前主流网络中最流行的编码形式,能够有效地表示大规模的交通场景,为检测器提供更丰富的空间特征。在生成体素网格时,将点云检测区域均匀划分为若干个大小为0.2m × 0.2m × 0.4m的单元,并将点分配到相应的单元中。由于距离和遮挡的影响,每个单元格中的点的数量极不平衡。为了计算方便,每个单元的密度阈值被设置为T。如果给定单元中的点的数量超过阈值,则从单元中随机采样T个点。否则,使用零填充。为了充分利用点之间的相互作用,初始点特征用(Xi-xm,yi-ym,zi-zm)扩充,其中m表示单元内所有点的算术平均坐标。最后,每个点特征包含十个维度。

BEV:由投影产生的BEV可以看作是一个伪图像,可以直接用传统的卷积结构进行处理。虽然投影会造成信息丢失,但这种操作使每个对象占据独立的空间位置,有利于反映对象之间的相对位置关系,缓解重叠和遮挡问题的干扰。

5、PI-Net: An End-to-End Deep Neural Network for Bidirectionally and Directly Fusing Point Clouds With Images

难题:现有的融合方法大多是将点云投影到伪图像中,然后将伪图像和RGB图像与二维cnn进行融合。为了消除对伪图像进行结构化预处理的问题,提出了一种新的融合模块——pi融合模块。

方法:本文提出了一种新的点云和图像融合网络PI-Net。它可以直接将点与从RGB图像中提取的特征图中的单元对应的像素或网格进行融合。具体来说,每个点根据预先校准的相机- lidar外部参数与特定的像素/网格对齐。将点和像素/网格聚集的特征相互传递,实现信息的双向融合。然后,我们通过将pi融合模块插入特定的二维CNN和基于点的网络之间,在每个尺度上融合特征,从而构建PI-Net的融合主干。

6、BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

难题:融合相机和LiDAR信息已成为3D对象检测任务的事实标准。当前的方法依赖于来自LiDAR传感器的点云作为查询来利用来自图像空间的特征。然而,人们发现,这种潜在的假设使得当前的融合框架在LiDAR出现故障时(无论是轻微故障还是严重故障)都无法产生任何预测。这从根本上将部署能力限制在了现实的自动驾驶场景。

创新点

论文提出了一个简单而新颖的框架,将LiDAR相机模态分解为两个独立的流。

  1. 独立的摄像头流:不依赖于激光雷达数据输入,即使在激光雷达出现故障的情况下也能进行预测。这解决了现有融合框架的一个主要缺点,即当激光雷达出现任何故障时,无论大小,都无法产生预测结果。
  2. 两阶段训练方案:第一阶段单独训练摄像头和激光雷达流。第二阶段将两个流联合优化以实现融合。
  3. 鸟瞰图空间的数据增强:在与最先进的方法进行比较时,BEVFusion还引入了鸟瞰图空间的数据增强来进一步提升结果。
  1. DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection(cvpr)

目标:对齐两种模态的转换特征

创新点:论文提出了两种方法:InverseAug和LearnableAlign来实现有效的中级融合。InverseAug对几何相关的数据增强进行反演(例如,RandomRotation ),然后使用原始相机和激光雷达参数将两种模态关联起来。LearnableAlign利用交叉注意力动态学习激光雷达特征及其对应相机特征之间的相关性。

数据扩充)来自两种模态的数据通常用不同的增强策略(例如,对于3D点云,沿着z轴旋转,结合对于2D图像的随机翻转)

在将数据增强应用于点云之后,给定3D关键点(其可以是任何3D坐标,诸如激光雷达点、体素中心等),在增强空间中,不能通过简单地使用原始激光雷达和相机参数来在2D空间中定位对应的相机特征。为了使定位可行,InverseAug首先保存增强参数(例如,RandomRotate的旋转度[46])。在融合阶段,它反转所有这些数据增强以获得3D关键点的原始坐标(图2(c)),然后在相机空间中找到其对应的2D坐标。

第一:专门的特征提取器。我们使用卷积层来提取相机特征,并以端到端的方式将这些卷积层与网络的其他组件一起训练。

第二:提出了一个深度特征融合管道。为了解决第一个问题,我们融合了深度相机和激光雷达功能,而不是在输入级别装饰原始激光雷达点,这样相机信号就不会通过为点云设计的模块。

  激光雷达点云被馈送导现有的激光雷达特征提取器以获取激光雷达特征,相机图像被反馈送到2D图像特征提取器以获取相机特征,然后将相机特征融合到激光雷达特征.

8、Toward Robust LiDAR-Camera Fusion in BEV Space via Mutual Deformable Attention and Temporal Aggregation

问题:大部分工作致力于提高融合模型在干净和收集良好的数据集上的检测性能。然而,在真实的场景中采集的点云和图像可能会因潜在的传感器故障而受到不同程度的破坏,这极大地影响了融合模型的鲁棒性,对安全部署构成威胁。在本文中,我们首先分析了大多数融合检测器的缺点,这主要依赖于激光雷达分支,和潜在的鸟瞰图(BEV)范式在处理部分传感器故障。在此基础上,我们提出了一个鲁棒的激光雷达相机融合管道在统一的BEV空间与两个新的设计下,四个典型的激光雷达相机故障情况。

创新点:提出了一种相互可变形注意力模型,以动态地描述空间特征关系,减少受损模态对空间特征关系的干扰,并设计了一个时间聚合模块,以充分利用时间域中丰富的信息。结合每种模态的解耦特征提取和整体BEV空间融合,所提出的检测器(称为RobBEV)可以稳定工作,而不管单模态数据损坏。

  在真实的场景中,摄像机故障可能不会持续很长时间,例如,当车辆行驶时,侧面摄像机可能被目标遮挡很短时间。因此,历史相机帧的融合可以抵抗可能的时间相机故障,并充分利用相机信息来提高检测性能,例如,时间信息可以为速度预测提供有用的线索。将历史帧有效地融合到当前帧需要解决由自我车和外部对象运动引起的特征不对准。

9、MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection

难点:2D无法与3D很好的融合,无法进行细粒度交互。

创新点:提出了一个新的框架,更好地利用了深度信息和激光雷达和相机之间的细粒度跨模态交互,其中包括两个重要组成部分。首先,采用深度感知的多深度反投影(MDU)方法,在每个交互层上提高提升点的深度质量。其次,应用门控模态感知卷积(GMA-Conv)块以细粒度方式调制与相机模态相关的体素,然后将多模态特征聚合到统一的艾德空间中。它们共同为探测头提供了更全面的LiDAR和相机功能。

  给定LiDAR点云和相应的多视图相机图像作为输入,MSMDFusion首先从体素空间中的两种模式中提取多尺度特征。然后,在多尺度体素空间内执行LiDAR-相机交互,以适当地联合收割机组合来自两种模态的多粒度信息。在每个尺度上,我们专门设计了一个多深度非投影(MDU)策略来获得体素空间中的高质量虚拟点,以及一个门控模态感知卷积块(GMA-Conv)来实现有效的LiDAR相机交互和融合。我们还引入了跨尺度的连接,逐步联合收割机功能的不同粒度。然后,深度交互的多模态特征与LiDAR特征一起被转换到BEV空间,并被馈送到BEV编码器和检测头进行最终预测。

10、SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection

难题:与单模态探测器相比,获得了良好的性能,但始终缺乏对融合过程的精心设计和有效监督。

解决方法:提出了一种新的训练策略SupFusion,它为有效的LiDAR-Camera融合提供了辅助特征级监督,并显著提高了检测性能。我们的策略涉及一种名为Polar Sampling的数据增强方法,该方法对稀疏对象进行密集化,并训练一个辅助模型来生成高质量的特征作为监督。

然后使用这些特征来训练LiDAR-Camera融合模型,在该模型中,融合特征被优化以模拟生成的高质量特征。此外,我们提出了一种简单而有效的深度融合模块,与以往的融合方法相比,该模块在SupFusion策略下不断获得优异的性能。

11、LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

难题:传感器融合被认为是克服单个传感器弱点的有效方法。近年来,融合多传感器信息的多模态位置识别受到越来越多的关注。然而,现有的多模态位置识别方法大多只使用有限的相机视场图像,导致不同模态特征之间的不平衡,限制了传感器融合的有效性。

解决方法:论文提出了一种名为LCPR的新型神经网络用于鲁棒多模态位置识别,该网络将LiDAR点云与多视图RGB图像融合,以生成环境的判别和偏航旋转不变表示。提出了一种基于多尺度注意力的融合模块,以充分利用环境中不同模态的全景视图及其相关性。

提出的LCPR的整体架构如图2所示。为了解决不同模式的有限视场摄像机和安装在自动驾驶汽车上的激光雷达之间的信息不平衡,采用多视图RGB图像和从点云投影的距离图像作为输入,并直接输出环境全局描述符。LCPR主要由图像编码(IE)分支、激光雷达编码(LE)分支、多尺度融合分支和NetVLAD-MLPs组合组成。

12、LiDAR-camerafusion:Dualtransformerenhancementfor3Dobjectdetection

难题:自动驾驶领域的进展试图利用激光雷达点云和RGB图像的强互补性来实现高效的三维目标检测任务。然而,有些方法只是简单地用相机线索来装饰原始点云或点云特征无法充分利用双模态数据之间的相关性。

解决方法:提出了一种双特征交互模块该模块采用软融合策略,通过将激光雷达和相机特征与Transformer交互来指导激光雷达-相机特征融合。与硬融合方法相比,该软融合方法可以利用可靠的图像特征对激光雷达特征进行修饰。此外,我们在训练过程中设计了一种基于不确定性的3D交并比(IoU)度量。该策略旨在建模3DloU分数的不可靠性,以减轻3D属性耦合问题引起的负面影响。

13、3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection

难点:相机与激光雷达的融合就是获得的空间特征图从每种模式来看,观点都大不相同。照相机和世界坐标;因此,将它们结合起来并非易事两个异构特征映射而不丢失信息。

解决方法:提出了一种名为3D-CVF的方法,该方法使用交叉视图空间特征融合策略将相机和激光雷达特征结合起来。首先,该方法采用自动校准投影,将2D相机特征转换为与激光雷达特征在鸟瞰图(BEV)域中具有最高对应关系的平滑空间特征映射。然后,应用门控特征融合网络根据区域适当地混合相机和激光雷达特征。接下来,在后续的提案细化阶段,也实现了相机-激光雷达特征融合。低级激光雷达特征和相机特征分别使用基于感兴趣区域(RoI)的特征聚合进行聚合,并与联合相机-激光雷达特征进行融合,以增强提案细化。

14、BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird’s-Eye-View via Cross-Modality Guidance and Temporal Aggregation

论文设计了一个激光雷达引导的ViewTransformer(LGVT),有效地获得摄像机在BEV空间的表示,从而有利于整个双分支融合系统。LGVT 将摄像头BEV作为原始语义查询,反复利用LiDAR BEV的空间线索,在多个摄像头视图中提取实时特征。此外,我们利用我们提出的时态可变对准(TDA)模块将我们的框架扩展到时间域,该模块旨在从多个历史框架中聚合BEV特征。

  1. Multi-Stage Fusion for Multi-Class 3D Lidar Detection

本文提出了一种激光雷达-摄像机融合方法,用于多类三维物体检测。该方法通过多个融合阶段最大限度地利用来自两个传感器的数据,并且可以端到端地学习。首先,我们应用一个多级门控自适应融合机制,该点融合阶段勤奋地利用图像和点云输入,并获取场景的联合语义表示。接下来,在基于激光雷达特征的感兴趣区域(RoI)的基础上,通过基于卷积的特征池化选择相应的相机特征,这些特征用于丰富局部区域的激光雷达特征,并增强提案的细化。此外,我们引入了一个多标签分类任务作为辅助正则化对象检测网络。在不依赖外部标签的情况下,它有助于模型更好地挖掘提取的特征,并发现难以发现的对象实例。

16、Sem-Aug: Improving Camera-LiDAR Feature Fusion With Semantic Augmentation for 3D Vehicle Detection

难点:摄像头-激光雷达融合提供精确的距离测量和细粒度纹理,使其成为自动驾驶场景中3D车辆检测的一个有前途的选择。以往基于摄像头-激光雷达的3D车辆检测方法主要集中在使用基于图像的预训练模型来获取语义特征。然而,在自动驾驶任务中,当缺乏语义分割标签时,这些方法的性能可能不如基于lidar的方法。

方法:论文提出了一种新的语义增强方法,即Sem-Aug。指导高可信度相机-激光雷达融合特征的生成,提高多模态3D车辆检测的性能。语义增强的关键新颖之处在于二维分割掩码的自动标记,它为语义分割子网络提供监督,以缓解摄像头-激光雷达融合泛化性能差的问题。与基于lidar的基线和以前的多模态3D车辆探测器相比,Sem-Aug利用语义增强制导相机- lidar融合特性,在具有代表性的KiTTi自动驾驶数据集上取得了卓越的性能。

17、Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion

难点:论文研究了从同步的二维和三维数据中联合估计光流和场景流的问题。以前的方法要么采用复杂的管道将联合任务划分为独立的阶段,要么以“早期融合”或“后期融合”的方式融合2D和3D信息。这种“一刀切”的方法面临着既不能充分利用每种模式的特点,又不能最大限度地实现模式间互补性的困境。

方法:为了解决这个问题,论文提出了一种新的端到端框架,该框架由2D和3D分支组成,它们之间在特定层中具有多个双向融合连接。与以往的工作不同,论文采用基于点的3D分支来提取LiDAR特征,因为它保留了点云的几何结构。为了融合密集图像特征和稀疏点特征,论文提出了一种可学习的算子——双向相机-激光雷达融合模块(Bi-CLFM)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值