CVPR 2023 | UniDistill: 在鸟瞰视角下统一的跨模态知识蒸馏框架

旷视研究院AI计算组提出了一种名为UniDistill的统一跨模态知识蒸馏框架,旨在解决自动驾驶3D目标检测中模态选择的问题。该框架在鸟瞰视角下工作,支持多种模态组合的蒸馏路径,能显著提升单模态检测模型的性能。在nuScenes数据集上的实验结果显示,经过UniDistill蒸馏后,student检测器的mAP和NDS提升了2.0%~3.2%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

技术信仰  价值务实

在使用自动驾驶 3D 目标检测算法时,你是否困扰于“既想也想”的问题?既想用单模态检测器以节省传感器成本,并且加快检测速度,也想获得其它模态的知识以得到更高的检测精度。为此,旷视研究院 AI 计算组提出了统一的跨模态知识蒸馏框架——UniDistill,它克服了传统知识蒸馏框架的缺陷,不仅支持多种模态组合的蒸馏路径,还能让单模态检测模型的性能大幅提升。下面带领大家感受一下这种全新的跨模态知识蒸馏框架。

开源代码:

https://github.com/megvii-research/CVPR2023-UniDistill

论文链接:

http://arxiv.org/abs/2303.15083

01

背景

根据输入数据的模态,目前的 3D 检测模型可以分为单模态检测模型(camera或LiDAR)与多模态检测模型(camera+LiDAR),其中,单模态检测模型的性能较差,而多模态检测模型设计复杂、计算量大,且在实际使用过程中,若是某一模态出现问题,则会检测失败。提升单模态检测模型性能的一种方式是使用跨模态知识蒸馏,将另一不同模态的 teacher 检测模型的知识迁移至 student 检测模型,然而如下图两种已有的蒸馏框架图所示,目前的知识蒸馏框架存在以下缺陷:

(1)完全统一了 teacher 和 student 检测模型的框架,在输入端对不同模态数据进行变换,损失了该模态数据的深层信息;

(2)完全固定了 teacher 和 student 的模态,实际应用场景会受到限制。

45bf241ece63b3c5acbc22896f803720.png

(a)MonoDistill [1]框架 ;(b)S2M2-SSD [2]框架;(c)UniDistill框架

为此,我们提出了一种在鸟瞰视角(BEV)下进行的统一跨模态蒸

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值