bevformer paper阅读

视觉3D感知的范式,利用transformer,结合多相机,时序信息的网络模型。

摘要:

 回顾视觉感知,

1. 简单方法,各个相机,2D做感知,然后进行后处理,融合和变换到3D。

2. 多相机BEV的方法,从下而上,预估图像深度,投影2D feature到3D上,然后用3D的方法。

本文的方法,

3. 不依赖深度,直接利用transformer的attention机制,获取bev的feature map。

4. 在BEV上,更好融合空间和时间上的特征,甚至多传感器。

核心的部分:

1. grid-haped BEV queries to fuse spatial and temporal info

2. spatial cross attention module to fuse multi view camera info

3. temporal self-attention module to extract temporal info

相关工作:

1. transformer based的2D感知,DETR,Deformable DETR

2. bev 3D 感知,detr3d, bevdet

 BEVFormer网络

1. 整体结构

如上图,利用BEV_Query去查询时序信息,空间信息,然后fefine bevfeature,送入后续的encoder

2.  BEV Queries

以自车为中心的,3D voxel grid, HxWxC,这里加上positional embeding

3. Spatial Cross Attention

bev query,lift到3D空间,pillar一样,作为参考点,利用外参矩阵,投影到图像上。这里做了一个处理,特定图片,只处理特定bev的grid 。

 4. Temporal self attention

首先,根据自车运动,把上一时刻的bevfeature,变换到当前坐标系下。

然后静止物体应该可以对应上,但是移动物体,各不相同,不好对应,通过Temporal self attention layer学习对应。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值