BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

m_buddy

已于 2023-06-27 23:53:02 修改

阅读量287

点赞数

分类专栏： BEV Perception 模型压缩&加速文章标签： 3d 目标检测人工智能

于 2023-06-27 23:52:33 首次发布

本文链接：https://blog.csdn.net/m_buddy/article/details/131426762

版权

参考代码：BEVSimDet

1. 概述

介绍：在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素，导致对实际部署的模型裁剪，自然性能也会存在下降。对这样的情况一般会采取知识蒸馏的方式实现性能弥补，对于常见intra-modal、cross-modal、multi-modal的蒸馏方式，它们需要source和target中输入的传感器数量保持一致，这样才能实现蒸馏。具体到自动驾驶场景中激光雷达并不是在所有车型，那么对于没有激光雷达的车如何提升感知性能？对此文章提出在图像特征上添加一个模拟的Lidar特征用于实现Lidar部分信息的迁移，这样来弥补由于Lidar缺失带来的性能影响。

2. 方法实现

这篇文章的方法是建立咋BEVFusion方法上的，因而涉及到Lidar和Camera的融合，但这是在source中，而target中是不存在Lidar的。对此文章提出从图像特征上预测一个和Lidar特征近似的特征来代替Lidar，其蒸馏的结构见下图：
在这里插入图片描述
对于知识蒸馏由于source和target差异比较大，因而所有的知识迁移都是在BEV空间下完成的，也就是上面对应的CMD、IMD、MMD-F、MMD-P上。首先对于source和target中都存在的feature进行知识迁移，也就是IMD、MMD-F、MMD-P。