视觉3D感知的范式,利用transformer,结合多相机,时序信息的网络模型。
摘要:
回顾视觉感知,
1. 简单方法,各个相机,2D做感知,然后进行后处理,融合和变换到3D。
2. 多相机BEV的方法,从下而上,预估图像深度,投影2D feature到3D上,然后用3D的方法。
本文的方法,
3. 不依赖深度,直接利用transformer的attention机制,获取bev的feature map。
4. 在BEV上,更好融合空间和时间上的特征,甚至多传感器。
核心的部分:
1. grid-haped BEV queries to fuse spatial and temporal info
2. spatial cross attention module to fuse multi view camera info
3. temporal self-attention module to extract temporal info
相关工作:
1. transformer based的2D感知,DETR,Deformable DETR
2. bev 3D 感知,detr3d, bevdet
BEVFormer网络
1. 整体结构
如上图,利用BEV_Query去查询时序信息,空间信息,然后fefine bevfeature,送入后续的encoder
2. BEV Queries
以自车为中心的,3D voxel grid, HxWxC,这里加上positional embeding
3. Spatial Cross Attention
bev query,lift到3D空间,pillar一样,作为参考点,利用外参矩阵,投影到图像上。这里做了一个处理,特定图片,只处理特定bev的grid 。
4. Temporal self attention
首先,根据自车运动,把上一时刻的bevfeature,变换到当前坐标系下。
然后静止物体应该可以对应上,但是移动物体,各不相同,不好对应,通过Temporal self attention layer学习对应。