TiG-BEV:Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning——论文笔记

参考代码:TiG-BEV

1. 概述

介绍:由于相机的BEV感知算法缺少或较难预测准确深度信息,导致下游任务性能掉点。对此,文章提出了一种基于目标内在几何信息(TIG:Target Inner-Geometry)的知识蒸馏信息约束载体,其可以有效将Lidar准确的3D感知信息迁移给图像,进而实现camera下性能提升。文章使用的是基于LSS的方法,其知识迁移的主要是在BEV特征图上完成的,也就是提出了一种基于object(检测目标)inter-keypoints和inter-channel的知识迁移。除此之外,还对LSS中深度估计部分做了优化,增加了object中相对深度约束。

对于给camera提供深度感知能力,可以将现有不同的方法划分为如下几种类型:
在这里插入图片描述

  • 1)深度监督:类似于LSS中添加深度预测分支,直接通过网络有监督或是无监督形式得到深度表达。
  • 2)BEV特征图知识迁移:使用Lidar数据去获取BEV特征,之后将其于camera获得的BEV特征进行逐点近似。这样的方法缺点也很明显,引入太多噪声,没有对其中的目标着力关注。
  • 3)文章的TIG方法:在深度估计部分出了LSS自带的深度监督约束,还增加object内部相对深度约束。在BEV特征蒸馏部分,在object内部采用inter-keypoint和inter-channel近似的方式实现知识蒸馏。

2. 方法设计

2.1 网络pipeline

文章的方法流程图见下图所示:
在这里插入图片描述
其主要优化便是对深度估计部分和BEV特征蒸馏部分做了优化。

2.2 深度估计分支添加相对约束

深度估计除了LSS中采用深度bins预测损失之外,还考虑目标本身内在的相对深度信息。如下图展示了object目标中不同部分深度是不一样的:
在这里插入图片描述
对此,对于需要检测的目标设置了目标内部相对深度约束,其实这点类似于深度估计方法中structrual-loss。对于相对深度的参考点文章是通过预测过程中选择于GT深度差异最小的点( j j j代表object的索引):
( x r , y r ) = arg min ⁡ ( x , y ) ∈ S ^ j ( S j g t ( x , y ) − S ^ j ( x , y ) ) (x_r,y_r)=\argmin_{(x,y)\in\hat{S}_j}(S_j^{gt}(x,y)-\hat{S}_j(x,y)) (xr,yr)=(x,y)S^jargmin(Sjgt(x,y)S^j(x,y))
之后便是目标中所有的像素计算与参考点的深度差异(预测结果和GT中分别进行):
r d j ( x , y ) = d j ( x , y ) − d j ( x r , y r ) rd_j(x,y)=d_j(x,y)-d_j(x_r,y_r) rdj(x,y)=

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值