X射线蒸馏:解决遮挡与稀疏点云3D目标检测

X射线蒸馏:解决遮挡与稀疏点云3D目标检测

Abstract

本文解决了基于LiDAR的3D目标检测中稀疏性和遮挡性所带来的关键挑战。当前方法通常依赖于补充模块或特定的架构设计,可能会限制其在新兴架构中的适用性。据我们所知,我们是第一个提出一种可以无缝集成到任何现有3D目标检测框架中的通用技术的研究,标志着3D计算机视觉中弱到强泛化的首次实例。我们引入了一个新颖的框架——利用对象完整帧的X射线蒸馏技术,适用于监督和半监督设置,充分利用了点云序列的时间维度特性。该方法从前后LiDAR帧中提取关键信息,创建代表多视角物体的对象完整帧,从而解决遮挡和稀疏性问题。鉴于在在线推理过程中无法生成对象完整帧的限制,我们在教师-学生框架中采用了知识蒸馏技术。这一技术促使强大的学生模型模仿处理简单且信息丰富的对象完整帧的较弱教师的行为,实际上提供了如同透过X射线观察物体的综合视角。我们提出的方法在半监督学习中超越了当前最先进的方法,提升了1-1.5 mAP的性能,并在标准自动驾驶数据集上提升了五个已有监督模型1-2 mAP的表现,即使在默认的超参数下。

代码地址:

https://github.com/sakharok13/X-Ray-Teacher-Patching-Tools

图片

 

Introduction

3D目标检测是计算机视觉和自主系统领域的基础任务,在推动自动驾驶技术发展中起着关键作用,并对机器人行业做出了重要贡献。目前,基于LiDAR的3D目标检测表现优于基于摄像头的和基于雷达的方法。此外,LiDAR点云是多模态融合方法的关键组成部分,因此,基于LiDAR的3D检测仍然是研究界的重点。
基于点云的3D目标检测面临以下挑战:稀疏性、遮挡和3D数据标注的复杂性。稀疏性:由于LiDAR传感过程的固有特性,大规模点云数据是稀疏的,导致对捕获场景的表示不准确。遮挡:另一个问题是LiDAR帧中部分遮挡的频繁出现。这主要是因为这些帧是从一个固定的视角获取的,实质上是2.5D的。最后,数据标注是3D目标检测中一个艰巨的挑战,因为在三维空间中标注物体的复杂性。
我们通过名为X射线蒸馏与对象完整帧的新框架,解决了3D目标检测中的所有三个主要挑战,该框架可以轻松插入现有方法和新架构中。

它被设计为通用应用于任何基于LiDAR的检测器,提高对稀疏和遮挡物体的检测性能。我们的方法利用了现有大型自动驾驶数据集的属性,这些数据集由一系列LiDAR帧组成。该属性使得可以使用序列中对象的其他出现情况来重建遮挡物体的完整形状,确保所有对象都具备来自场景中所有可用视角的点。然后,我们在教师-学生框架中使用这些完整数据,进行半监督学习和监督环境下的知识蒸馏。我们在极其信息丰富的对象完整帧上训练教师模型,从而使其成为一个较弱的模型。然后,我们利用它从这些简单的对象完整帧中提取特征,并将此知识蒸馏给更强的学生模型,该模型使用原始数据操作,以指导其如何从遮挡物体中提取丰富的特征。为了生成对象完整帧,我们利用了真实标签的对象跟踪。由于在半监督设置中大多数数据没有标签,我们提出了一个对象时间融合块来检测、跟踪,并使用点云配准技术构建对象完整帧。

Method

3.1 X-Ray Teacher 概述

我们介绍了一种新颖的训练框架,以解决基于 LiDAR 数据的 3D 目标检测中稀疏性和遮挡的挑战。该框架不局限于任何特定的目标检测模型,具有在各种深度学习架构中应用的潜力。我们的方法旨在处理结构化为帧序列的 LiDAR 数据。

我们的方法的两个核心要素是对象完整帧生成和教师-学生知识蒸馏。我们的 3D 目标检测方法可以应用于监督和半监督设置,两个元素的实现存在微小的差异。

对象完整帧生成。在这一步中,我们通过利用同一序列中其他帧的信息来重建场景中对象的完整形状。鉴于自动驾驶数据集由顺序数据组成,我们可以有效利用其时间特性:当对象从不同视点被观察到时,我们从未来和过去的帧中添加点云。这使我们无需形状数据库或重建模块即可重建对象的完整形状。
为了验证我们方法的有效性,我们在原始和对象完整的 NuScenes 数据集上训练了 CenterPoint模型,并在相应的验证集上评估了它们的性能。训练于原始和对象完整帧的模型分别达到了 59.2% 和 79.5% 的 mAP 分数。这个 20 mAP 的差异表明:1) 将未标注的原始点云转换为对象完整帧并使用在这些信息丰富的帧上预训练的 X-Ray Teacher 进行标注是有益的;2) 可以通过蒸馏来自弱的 X-Ray Teacher 的知识到更强的学生模型,分享完整形状的知识。

教师-学生知识蒸馏。这一步骤的必要性在于,在在线推理阶段无法生成对象完整帧,因为无法访问未来数据。因此,我们需要鼓励模型在处理被遮挡的对象时,表现得像是在观察形状完整的对象一样。使深度学习模型模仿另一个模型行为的一个常用方法是使用教师-学生框架中的知识蒸馏。然而,对于传统的知识蒸馏,教师和学生模型通常处理相同复杂度的数据(唯一的区别可能在于数据增强的复杂性)。与标准知识蒸馏不同,我们通过丰富教师的训练数据显著提高其在 3D 目标检测中的性能。然后,我们通过教师模型的知识蒸馏,教导学生从较少详细的数据中提取重要信息。
我们没有像标准知识蒸馏中通常做的那样简化学生模型,而是采取相反的方法,将学生设计得比教师更复杂。这样可以帮助学生从更复杂和模糊的数据中提取高质量信息,并要求学生模型更加鲁棒,具备更复杂的感受野能力。

3.2 监督 X-Ray Teacher

在 3D 目标检测的监督设置中,模型使用提供精确边界框和实例 ID 的标注数据进行训练和评估。对于标注数据的对象完整帧生成,涉及基于实例 ID 聚合对象并将不同视角合并为统一的点云。

在蒸馏过程中(见图 2),我们在对象完整帧上训练教师模型,然后将其冻结。然后,我们训练基线模型(担任学生角色)直接最小化由启发的知识蒸馏损失。蒸馏通过匹配教师和学生骨干编码器的嵌入、边界框回归的输出标签、分类任务的类别分布(如行人、汽车、骑自行车者等)以及回归和分类头输出的中间特征(在后处理前分配标签)来进行。具体而言,我们定义了以下损失:
 

图片

T 和 S 分别是我们的教师和学生模型的输出。学生以原始帧 F 作为输入,而教师则接受对象完整帧 F˜,因此 F ⊂ F˜。Sback 和 Tback 指的是骨干模块的输出,Sreg、Treg、Scls 和 Tcls 是回归和分类头的输出。T˜boxes 是 X-Ray Teacher 在后处理后的预测框。Spreds 是学生的整体输出;α1、α2 是非负超参数。Ldetection 是用于训练 3D 目标检测模型的基本检测损失。ϕ 是一个 1x1 卷积,用于更好地匹配教师的特征图。ω 指的是一些额外的卷积,使学生更加灵活。我们发现,对于 NuScenes 数据集,X-Ray 蒸馏不需要额外的卷积,因此编码器特征调整的使用也是模型的一个超参数。MSE 表示均方误差。
最后,训练目标可以写为:
 

图片

其中 λ1、λ2、λ3 是平衡每个项贡献的非负超参数。

图片

3.3 半监督 X-Ray Teacher

半监督学习的特点是少量标注数据和大量未标注数据的可用性,这使得在监督设置中提出的对象完整帧生成方法变得不可行。为了克服这一限制,我们引入了对象时间融合块(如图 3 所示),该模块旨在在缺少地面真值标注的情况下实现对象完整帧生成。该块利用在标注数据上预训练的模型,检测和跟踪未标注序列中的对象。随后,它使用点云配准(PCR)来合并所有检测对象的不同视图。这些步骤精确而详细地描述了对象时间融合的过程:
(1)使用预训练模型对所有 LiDAR 帧进行标注;
(2)使用预测的边界框贪婪地跟踪每个序列中的对象,并分配唯一的 ID 给每个对象实例,以便在场景中识别重复出现的对象,并以顺序方式组织它们;
(3)对于每个序列中的每个对象,通过应用深度学习模型进行点云配准,将同一对象的不同视图合并;此过程生成每个对象的完整点云,然后用于替换每一帧中的遮挡对象;
(4)在对象完整的标注帧上微调基础模型;此精炼模型构成了我们的 X-Ray Teacher。

图片

图 4 所示的知识蒸馏步骤可以集成到任何使用伪标签作为自蒸馏形式的半监督 3D 目标检测方法中。该领域的所有方法通常遵循这种范式,这突显了我们方法的高度普遍性。从这个角度来看,使用对象完整帧进行伪标签预测可以精化 3D 边界框并提高自蒸馏的质量。唯一的限制是,现有的半监督方法通常使用学生权重的指数移动平均来更新教师模型的权重。我们避免这种做法,因为我们的教师模型在对象完整帧上进行了微调,因此可以预测出更高质量的标签。

图片

Experiments

首先,我们详细比较了我们X-Ray方法在半监督情况下的表现,分别在有和没有使用Object-Complete帧进行教师模型微调的情况下。我们使用Mean Teacher和Proficient Teacher,并在ONCE Small数据集上训练了SECOND和CenterPointVoxel模型。表1展示了教师模型微调对性能的显著影响,表明忽略这一步骤会导致明显的性能下降。
 

图片

我们结合了多种知识蒸馏技术:BEV特征匹配、使用简单回归和KL散度的heads输出匹配以及在教师预测上的检测损失。我们还在Waymo验证集上使用SECOND模型对部分解决方案进行了比较,结果见表2。
 

图片

我们对Object Complete Frame Generation过程中使用的各种点云配准(PCR)方法进行了评估。这一分析在ONCE Small数据集上进行了,结果详见表3。结果表明,优越的PCR方法有助于生成更少噪声的对象,从而提高整体质量。
 

图片

此外,我们还训练了这些模型的缩放版本,而没有使用X-Ray Teacher,以证明检测质量的提升是由于我们方法的有效性,而不仅仅是因为参数数量的增加。我们对Waymo学生模型进行了缩放,这是因为Waymo数据集的点云非常密集和完整,不同于NuScenes(参见补充材料),后者的数据更简单,学习有意义的特征表示所需的参数更少。表4和表5中展示的结果表明,我们的方法在检测质量方面比基线模型稳定地提高了1-2 mAP。
 

图片

图片

我们比较了使用和不使用X-Ray Teacher获得的结果,详见表6。我们的结果表明,应用我们的方法可以持续提高性能,带来0.8-1.4 mAP的提升。

图片

结论

本文作出了以下贡献:

1.提出了用于半监督学习的X射线教师框架,在ONCE基准中取得了最先进的性能。
2.展示的方法提高了四个监督学习模型的质量,包括当前最先进的模型,并展示了提升任何在序列数据上训练的监督模型性能的潜力。
3.建议使用对象时间融合块来为缺乏真实跟踪标签的数据生成对象完整帧。

引用文章:
Weak-to-Strong 3D Object Detection with X-Ray Distillation
作者:Alexander Gambashidze

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

AiFighing是全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值