bevformer paper阅读

最新推荐文章于 2024-08-21 12:07:56 发布

huang_victor

最新推荐文章于 2024-08-21 12:07:56 发布

阅读量128

点赞数

文章标签：数码相机人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huang_victor/article/details/129682419

版权

视觉3D感知的范式，利用transformer，结合多相机，时序信息的网络模型。

摘要：

回顾视觉感知，

1. 简单方法，各个相机，2D做感知，然后进行后处理，融合和变换到3D。

2. 多相机BEV的方法，从下而上，预估图像深度，投影2D feature到3D上，然后用3D的方法。

本文的方法，

3. 不依赖深度，直接利用transformer的attention机制，获取bev的feature map。

4. 在BEV上，更好融合空间和时间上的特征，甚至多传感器。

核心的部分：

1. grid-haped BEV queries to fuse spatial and temporal info

2. spatial cross attention module to fuse multi view camera info

3. temporal self-attention module to extract temporal info

相关工作：

1. transformer based的2D感知，DETR，Deformable DETR

2. bev 3D 感知，detr3d, bevdet

BEVFormer网络

1. 整体结构

如上图，利用BEV_Query去查询时序信息，空间信息，然后fefine bevfeature，送入后续的encoder

2. BEV Queries

以自车为中心的，3D voxel grid, HxWxC，这里加上positional embeding

3. Spatial Cross Attention

bev query，lift到3D空间，pillar一样，作为参考点，利用外参矩阵，投影到图像上。这里做了一个处理，特定图片，只处理特定bev的grid 。

4. Temporal self attention

首先，根据自车运动，把上一时刻的bevfeature，变换到当前坐标系下。

然后静止物体应该可以对应上，但是移动物体，各不相同，不好对应，通过Temporal self attention layer学习对应。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bevformer paper阅读

回顾视觉感知，1. 简单方法，各个相机，2D做感知，然后进行后处理，融合和变换到3D。2. 多相机BEV的方法，从下而上，预估图像深度，投影2D feature到3D上，然后用3D的方法。本文的方法，3. 不依赖深度，直接利用transformer的attention机制，获取bev的feature map。4. 在BEV上，更好融合空间和时间上的特征，甚至多传感器。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。