大盘点 | 基于Range-View的数据处理及3D检测算法

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【自动驾驶课程】获取全套图宾根大学自动驾驶入门课程!

基于Range-View的数据处理及3D检测算法汇总

0.为什么采用range-view?

相比于Point View或BEV而言Range image具有紧凑性,因为这两种表示方法的稀疏性非常明显,而Range View则没有稀疏性。Range View可以进行快速的邻域查询,而不用像Point View一样需要划定球半径,然后通过 ball query的方式来搜寻邻域的点,这无疑可以大大提高处理效率。Range View表示的检测范围可以和传感器真实的检测范围一样远。而BEV或者PV的方式为了在笛卡尔坐标系下方便表示,通常需要限制范围,这样无疑会造成一定的信息丢失。

1.Range view数据生成

先来看看Range View的数据是怎么生成的,激光雷达的点云来自于多条激光扫描线。比如说64线的激光雷达,那么在垂直方向(Inclination)上就有64个离散的角度。激光雷达在FOV内扫描一遍,会有多个水平方向(Azimuth)的角度。比如说水平分辨率是0.1°,那么扫描360°就会产生3600个离散的角度。这里也可以粗略把Inclination和Azimuth理解为地球上的纬度和经度。把水平和垂直方向的角度值作为X-Y坐标,就可以得到一个二维图像。图像中的像素值是相应角度下的反射点的特性,比如距离,反射强度等。这些特性可以作为图像的channel,类似于可见光图像中的RGB。

RangeDet中针对输入的Range Image,可以将其视为8个通道的2D图片,其中8个通道分别为range,反射率,伸长率,x,y,z,方位角(azimuth)和倾角(inclination),之后,将这个2D图片通过backbone来处理,比如ResNet。Range-View生成的数据图,本质上和2D数据相似,会出现近处目标大,远处目标小的问题,相邻的两个像素点可能真实距离较大!但是2D的一些优势也同样具备。

2.领域Range-View方法的一些介绍

目前领域的方法主要有LaserNet、LaserFlow、RangeRCNN、RangeIoUDet、RCD、RangeDet、PPC、RSN;

1)LaserNet

Lasernet: An efficient probabilistic 3d object detector for autonomous driving(CVPR2019)

LaserNet基于Lidar的range view数据处理,相比原来基于range view方法性能提高了较多,基本接近当时的bev方法。LaserNet是一种计算效率高的自动驾驶Lidar数据三维目标检测方法(主要在于range-view的数据处理,输入数据自然紧凑)。在range-view中学习是很有挑战性的,包括遮挡和尺度变化,但它也基于传感器数据的捕获方式提供上下文信息。论文的方法使用全卷积网络来预测每个点的3D box的多模态分布,然后有效地融合这些分布以生成每个目标的预测。实验表明,将每个检测建模为一个分布,而不是一个单一的确定框,可以获得更好的整体检测性能。基准测试结果表明,与其它方法相比,该方法的运行时间明显较低,range-view方法上SOTA!

d3f6ce73fef1a39f709f36c854fc2333.png

LaserNet用的点laser id作为range view图像中的纵坐标.离散化azimuth作为横坐标.lasernet的输入是五通道的数据,range, height, azimuth, intensity, flag(表示图像的这个位置是否有点),当多个点落在一个位置,保留最近的点。模型结构如上图所示,可以看作是anchor-free结构,每个点输出结果然后做mean shift + NMS(同一个物体上的所有点应该预测一个相近的分布,因为有噪声的存在不可能完全一样,可以通过mean shift聚类降低这个噪声,分别在每个类别和混合模型的每个组件上进行mean shift聚类)。

143557a96ed74efd597d361667a83cc0.png

2)RangeRCNN(hikvision)

RangeRCNN: Towards fast and accurate 3d object detection with range image representation(CVPR2021)

论文提出了一种基于range-view图像表示的新颖有效的三维目标检测框架RangeRCNN,论文指出,由于尺度变化和遮挡,range图像在3D目标检测中不是最优的。在RangeRCNN中,利用扩展残差块(DRB)更好地适应不同目标尺度,并获得更灵活的感受野。考虑到尺度变化和遮挡,还提出了RV-PV-BEV(range视图-point view-鸟瞰图)模块,将特征从RV传输到BEV,anchor在BEV中定义,避免了尺度变化和遮挡。RV和BEV都不能为高度估计提供足够的信息,因此论文提出了一种两阶段RCNN,以获得更好的3D检测性能。point view不仅充当了从RV到BEV的桥梁,还为RCNN提供了逐点特征。实验表明,RangeRCNN在KITTI数据集和Waymo数据集上实现了SOTA,并为实时3D对象检测提供了更多可能性。Range RCNN整体结构如下所示:

b63cec711c5d06cd5fdb5f3489361e55.png

其中的编码解码器为卷积模块,这里重点看下PV-RV-BEV模块,range图像表示适合于用2D卷积进行特征提取。然而,由于大尺度变化,难以在range图像平面中分配anchor,严重的遮挡也使得难以移除非最大抑制(NMS)模块中的冗余边界框。相反,这些边界框在BEV平面中具有相似的形状,因为大多数汽车的尺寸相似,不同的汽车即使非常接近,也不可能在BEV位置重叠,在BEV平面中生成anchor更合适。因此,论文将从range图像提取的特征转换为鸟瞰图像。对于每个点,在range图像平面中记录其对应的像素坐标,可以通过索引距离图像主干的输出特征来获得逐点特征。然后将逐点特征投影到BEV平面。对于与BEV图像中相同像素对应的点,论文使用平均池运算来生成像素的代表性特征(这里,point view仅用作将特征从距离图像转移到BEV图像的桥梁),不使用基于点的卷积从点提取特征。模型在KITTI测试集上性能对比:

3cb63e7109dee75e2d7649a11e40c028.png

3)RCD(谷歌+Waymo)

Range conditioned dilated convolutions for scale invariant 3d object detection(arxiv2020)

论文提出了一种新的三维目标检测框架RCD,可以直接处理激光雷达数据的Range-view图像,由于range-view图像的紧凑性,2D卷积可以有效地处理场景的密集激光雷达数据。为了克服该透视图中的尺度敏感性,论文提出了一种新的范围条件扩张(RCD)层,以动态调整作为测量range函数的连续膨胀率。此外,结合3D框细化阶段的局部soft range gating 提高了遮挡区域的鲁棒性,并产生总体上更精确的边界框预测。在大规模Waymo开放数据集上,论文的方法为Range-view方式的3D检测设置了新的基线,在所有范围内都优于基于多视图和体素的方法,在远程检测方面具有较大优势。

RCD的动态采样可视化图和结构图如下所示:

773fccaa2318cd8620cf708ad2fe11dd.png 32fda4add76bc6c2fcb753112b576994.png

RCD引入了一种新的范围条件扩展(RCD)卷积算子,该算子能够动态调整局部感受野,以在任何距离提供相对于卷积核的一致尺度关联。其次,在基于range图像的3D目标检测的背景下,研究了基于区域卷积神经网络(RCNN)的two-stage网络;论文还为公共数据集上基于距离图像的3D对象检测设置新基线,这是首次将基于range图像的网络与RCNN二阶段相结合的方案。Waymo测试集上性能对比如下所示:

63ec274acbb8698e6ccdcd75f471ad76.png

4) Rangedet(图森)

Rangedet: In defense of range view for lidar-based 3d object detection(ICCV2021)

Rangedet是图森在ICCV2021上的一篇paper,个人认为也是比较经典的一篇,论文主要抛出了三个问题:首先,在BEV中检测具有稀疏点的目标的挑战被转换为range图像中的尺度变化挑战,这在基于range view的3D检测器中从未被认真考虑;第二,2D range-view自然紧凑,这使得可以在没有巨大计算负担的情况下采用高分辨率输出,然而,如何利用这些特性来提高探测器的性能是被当前基于range图像的方法设计所忽略的。第三,也是最重要的一点,与2D图像不同,range图像的卷积是在2D图像坐标上进行的,而输出是在3D空间。这一点表明,当前基于range-view的检测器设计较差:标准卷积的核权重和聚合策略都忽略了这种不一致性,这导致了严重的几何信息丢失。

10c0f49b498eb608db09871f7388f66c.png

如上图所示,RangeDet是一个单阶段anchor-free检测器,旨在解决上述三个问题,论文分析了现有基于range视图的3D检测器的缺陷,针对第一个问题,提出了一个简单但有效的Range Conditioned Pyramid来缓解;对于第二个问题,使用加权非最大抑制来解决这个;对于第三个问题,提出了Meta-Kernel来从2D range view表示中获取3D几何信息。

在2D检测中,通常采用基于特征金字塔网络(FPN)来解决尺度变化问题。论文采用相似思路,尽管特征金字塔的构造类似于二维对象检测中的FPN,但不同之处在于如何将每个目标分配到不同的层进行训练。直接采用2D中的分配方法忽略了2D距离图像和3D笛卡尔空间之间的差异。附近的乘用车可能与远处的卡车具有相似的区域,但它们的模式大不相同。因此,论文指定具有相似范围的目标由同一层处理,因此将此种FPN称之为range条件金字塔(RCP)。

作者认为,传统的2D卷积用在range image上效果不好的原因在于,标准卷积的卷积方法是在图像坐标系下进行的,而实际的点在3D坐标系中,标准卷积很容易忽略掉这些笛卡尔坐标系中的信息。说实话,这句话讲的真的太绕了。用我自己的理解来说,比如一个range图像中两个点看似相邻,但其实在真实的物理空间中两个点的range差距很大,实际距离很远,而标准卷积无法做到学习这一信息。因此作者提出了Meta-Kernel的概念,使用了一种新的卷积核,作者将其定义为“一个新的算子”。确实如果要将这个模型部署的话,这个卷积的算子必须自己重新写。Meta-Kernel Convolution的过程如下:

e73e419f35f6c95192f78537bf8a2f9f.png

为了充分利用Range View的紧凑性,作者使用了加权的NMS。这里的紧凑性,是网络可以在全分辨率图像内生成很多proposals,并且不需要很高的计算成本。加权NMS并不是粗暴排序后根据重叠度直接删除,而是使用较高score的框进行加权。具体过程为:

7bda00a2aa5fe301f54f4c878c23d788.png

RangeDet在Waymo上的性能对比如下:

e1c5f758128eb22a4da5d8816dade935.png

5)PPC(Waymo)

To the Point: Efficient 3D Object Detection in the Range Image with Graph Convolution Kernels(CVPR2021)

对于存在2D透视range图像的任务,PPC建议直接从该range图像视图学习3D表示。为此,论文设计了一个二维卷积网络架构,在整个网络中携带每个像素的三维球坐标。它的层可以使用任何任意卷积核来代替默认内积核,并利用每个像素周围的底层局部几何。论文概述了四个这样的核:根据 the bag-of-words 范式的稠密核,以及受最近图神经网络进步启发的三个图形核:Transformer、PointNet和边缘卷积。除此之外,还探索了与camera图像的跨模态融合,通过在透视range图像视图中操作来实现。论文的方法在Waymo开放数据集上具有竞争力,并将最先进的行人检测AP从69.7%提高到75.5%。它也很有效,因为我们的最小模型在质量上仍然优于流行的PointPillars ,模型参数减少180倍!!!PPC整体网络结构如下所示:

fb0324bd737357d24470108496e58bce.png

上图中的d是论文提出的四种操作核,论文在模型训练中可以随机选择某个卷积核加入模块。其中:

Point-Set Aggregation kernel将信息从多个像素减少到单个像素,通过应用2D卷积核,可以构造与常规2D卷积等效的层;

Range-quantized (RQ) 2D convolution kernel受 bag-of-words方法中线性化思想的启发,将range信息添加到层的最简单方法之一是根据每个相邻像素与中心像素的相对深度差,对输入特征应用不同的权重集;

self-attention kernel:transformer根据输入特征和特征的空间位置生成权重,因此不需要一组密集形式的权重;

PointNet kernel:参考PointNet思路;

EdgeConv kernel:边缘卷积非常类似于Pointnet,在PointNet中,MLP的输入是特征本身和相对位置编码。边缘卷积将作为中心特征的另一特征添加到输入。

论文采用CenterNet结构,扩充到3D任务中,对于主干输出特征图中的每个像素,预测分类和回归分布!PPC在Wamyo行人和机动车上的性能对比如下:

f5b038e305a8c344d3d4375aa7a97aa4.png fb2558ff59d249b013cb7059b2ac4ee7.png

6)RSN(Waymo)

Rsn: Range sparse net for efficient, accurate lidar 3d object detection(CVPR2021)

没错,又是wamyo,看来他家青睐于此!

从激光雷达数据中检测三维目标是大多数自动驾驶系统中的关键组成部分。安全、高速驾驶需要更大的检测范围,这些更大的检测范围需要更有效和准确的检测模型。为了实现这一目标,论文提出了距离稀疏网络(RSN):一种简单、高效和精确的3D目标检测器以解决这种扩展检测机制中的实时3D对象检测问题。RSN从range图像预测前景点,并对选定的前景点应用稀疏卷积以检测目标。密集range图像上的轻量级2D卷积导致显著较少的选定前景点,从而使RSN中的后期稀疏卷积能够有效地操作,论文简单组合来自range图像的特征进一步增强检测精度。RSN在Waymo数据集(WOD)上的150m×150m检测区域上以每秒60帧以上的速度运行,同时比先前发布的检测器更精确。当年的激光雷达行人和车辆检测的APH/1级指标,RSN在WOD排行榜中排名第一,同时比其它方法快几倍。

11010df89bd5569efeb3ab9f26ca286a.png

模型整体结构如下所示:

553b49d9075fca11b1d3d2b9624d8ded.png

如上图所示,range图像在特征提取部分,只采用2D卷积网路,在2a)中的range图像上分割前景点;与2b)中学习的range图像特征一起,被收集到稀疏点。在3)中利用稀疏卷积,在选定前景点上提取每个点的特征,稀疏的centernet检测头用于回归bbox。

Range Image Feature Extraction

论文采用轻量级U-Net,如下所示,每个D(L,C)下采样块包含L个resnet block,每个块具有C个输出信道。在每个block中,第一个具有步长2,每个U(L,C)block包含1个上采样层和L个resnet block。

5df9c3bcb3b775233f76b246e493de87.png
Foreground Point Selection

为了下游处理中的稀疏性最大化效率,该2D卷积网络的输出是将输入点云数据减少到最可能属于目标点的理想位置。这里,1×1卷积层对学习range图像特征执行像素级前景分类。通过检查相应像素点是否在任何框中,使用focal 损失和从3d边界框导出的GT对该层进行训练。

Sparse Point Feature Extraction

对选定的前景点使用动态体素化,其实也就是均值方差那一套,所选前景点被编码成稀疏体素特征,该稀疏体素可任选地由pointnet进一步处理,在稀疏体素上应用2D或3D稀疏卷积网络(分别用于柱型或3D型体素化)。

cfe6b50d989fce29887ca0f474cc6d2e.png
Temporal Fusion

现有的基于range图像的检测方法对时间融合不友好,因为range图像是在自动驾驶汽车移动时构建的。由于自我运动,直接叠加距离图像对检测性能几乎没有益处。从range图像中移除自我运动不是最佳的,因为在不同帧处的range重建导致量化误差。时间RSN将一系列时间不变的range图像作为输入,RIFE应用于每个距离图像,以分割前景点并提取距离图像特征。然后,将所有选定点变换到最新帧,以去除自我运动。在SPFE阶段,将从自身帧而不是所有帧计算的体素特征附加到每个点。这工作得更好,因为它避免了在体素化过程中将来自不同帧的点混合在一起。此外,论文将最新帧的时间差(以秒为单位)附加到每个点,以区分不同帧中的点。与单帧模型一样,SPFE主干对所有帧中选定的前景点进行处理。

RSN在wamyo上的机动车检测性能对比如下:

c7b1a8d2a44d667bcff9b6ebcd092c81.png

往期回顾

史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

a264dbec28c9fc3da6219c83b4ec4744.jpeg

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值