技术信仰 价值务实
在使用自动驾驶 3D 目标检测算法时,你是否困扰于“既想也想”的问题?既想用单模态检测器以节省传感器成本,并且加快检测速度,也想获得其它模态的知识以得到更高的检测精度。为此,旷视研究院 AI 计算组提出了统一的跨模态知识蒸馏框架——UniDistill,它克服了传统知识蒸馏框架的缺陷,不仅支持多种模态组合的蒸馏路径,还能让单模态检测模型的性能大幅提升。下面带领大家感受一下这种全新的跨模态知识蒸馏框架。
开源代码:
https://github.com/megvii-research/CVPR2023-UniDistill
论文链接:
http://arxiv.org/abs/2303.15083
01
背景
根据输入数据的模态,目前的 3D 检测模型可以分为单模态检测模型(camera或LiDAR)与多模态检测模型(camera+LiDAR),其中,单模态检测模型的性能较差,而多模态检测模型设计复杂、计算量大,且在实际使用过程中,若是某一模态出现问题,则会检测失败。提升单模态检测模型性能的一种方式是使用跨模态知识蒸馏,将另一不同模态的 teacher 检测模型的知识迁移至 student 检测模型,然而如下图两种已有的蒸馏框架图所示,目前的知识蒸馏框架存在以下缺陷:
(1)完全统一了 teacher 和 student 检测模型的框架,在输入端对不同模态数据进行变换,损失了该模态数据的深层信息;
(2)完全固定了 teacher 和 student 的模态,实际应用场景会受到限制。
(a)MonoDistill [1]框架 ;(b)S2M2-SSD [2]框架;(c)UniDistill框架
为此,我们提出了一种在鸟瞰视角(BEV)下进行的统一跨模态蒸