TiG-BEV：Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning——论文笔记

最新推荐文章于 2024-01-04 16:29:11 发布

m_buddy

最新推荐文章于 2024-01-04 16:29:11 发布

阅读量382

点赞数 1

分类专栏： BEV Perception 模型压缩&加速文章标签： 3d 目标检测论文阅读

本文链接：https://blog.csdn.net/m_buddy/article/details/128886883

版权

本文介绍了TiG-BEV方法，通过目标内在几何（TIG）知识蒸馏提升相机的3D物体检测性能。该方法在深度估计分支中加入相对约束，并在BEV特征图上进行inter-keypoint和inter-channel的知识蒸馏，以增强相机的深度感知能力。

摘要由CSDN通过智能技术生成

参考代码：TiG-BEV

1. 概述

介绍：由于相机的BEV感知算法缺少或较难预测准确深度信息，导致下游任务性能掉点。对此，文章提出了一种基于目标内在几何信息（TIG：Target Inner-Geometry）的知识蒸馏信息约束载体，其可以有效将Lidar准确的3D感知信息迁移给图像，进而实现camera下性能提升。文章使用的是基于LSS的方法，其知识迁移的主要是在BEV特征图上完成的，也就是提出了一种基于object（检测目标）inter-keypoints和inter-channel的知识迁移。除此之外，还对LSS中深度估计部分做了优化，增加了object中相对深度约束。

对于给camera提供深度感知能力，可以将现有不同的方法划分为如下几种类型：
在这里插入图片描述

1）深度监督：类似于LSS中添加深度预测分支，直接通过网络有监督或是无监督形式得到深度表达。
2）BEV特征图知识迁移：使用Lidar数据去获取BEV特征，之后将其于camera获得的BEV特征进行逐点近似。这样的方法缺点也很明显，引入太多噪声，没有对其中的目标着力关注。
3）文章的TIG方法：在深度估计部分出了LSS自带的深度监督约束，还增加object内部相对深度约束。在BEV特征蒸馏部分，在object内部采用inter-keypoint和inter-channel近似的方式实现知识蒸馏。

2. 方法设计

2.1 网络pipeline

文章的方法流程图见下图所示：
在这里插入图片描述
其主要优化便是对深度估计部分和BEV特征蒸馏部分做了优化。

2.2 深度估计分支添加相对约束

深度估计除了LSS中采用深度bins预测损失之外，还考虑目标本身内在的相对深度信息。如下图展示了object目标中不同部分深度是不一样的：
在这里插入图片描述
对此，对于需要检测的目标设置了目标内部相对深度约束，其实这点类似于深度估计方法中structrual-loss。对于相对深度的参考点文章是通过预测过程中选择于GT深度差异最小的点（ $j$ 代表object的索引）：
$(x_r,y_r)=\argmin_{(x,y)\in\hat{S}_j}(S_j^{gt}(x,y)-\hat{S}_j(x,y))$
之后便是目标中所有的像素计算与参考点的深度差异（预测结果和GT中分别进行）：
$rd_j(x,y)=d_j(x,y)-d_j(x_r,y_r)$