BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

butterfly won＇t love flowers

已于 2025-04-21 20:43:07 修改

阅读量924

点赞数 15

分类专栏： BEV 文章标签：目标检测

于 2025-04-20 20:08:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/butterflies_/article/details/147367342

版权

背景

在自动驾驶场景下，以往工作是目标检测任务用图像视角做，语义分割用BEV视角做。本文提出了BEVDet，实现了一个统一的框架，它模块化设计分为图像编码器，视角转换器，BEV编码器以及BEV空间的3D检测头。然而框架定下来不代表性能好了，BEVDet在BEV空间上过拟合了，这需要在图像空间增加数据增强，但只有在没有BEV Encoder时才会有正效果。此外，由于图像空间到BEV空间是像素级联系的，图像空间的数据增强并不会对BEV编码器与检测头有正则化效果。所以这里我们在BEV空间进行数据增强来增加鲁棒性。

主要贡献

BEV空间与图像空间都用了数据增强方法，并且解耦合
提出了BEV编码器，并且沿用LSS的深度估计方法，将图像转到BEV空间进行目标检测。
提出了NMS的改进版本，Scale-NMS对不同类别的物体不同放缩处理。
训练沿用了CBGS，方便训练样本均衡。同时在视角转化增加了加速方法，提前计算好辅助索引，即每个点与BEV网格的对应关系。

方法

图像编码器

这部分BackBone使用ResNet或SwinTransformer处理，neck部分使用FPN或者FPN-LSS，FPN-LSS就是将1/32分辨率的上采样到1/16与原Backbone提取的特征拼接即可。

视角变换器

这里首先使用LSS的方法预测深度，使用softmax得到每个深度的概率值，得到深度分类图与特征图进行外积相乘得到每个深度下的特征图，形状为ND64H/16W/16，这也就类似于伪点云特征了，将他们转到BEV坐标系上，并在高度维度上使用最大池化或平均池化。

BEV编码器与检测头

与图像编码器类似，最后得到统一的BEV特征图输出即可，但这里的BEV特征图能学到更关键的信息如尺度、速度等等。3D检测头直接使用的CenterPoint的第一阶段检测头。

数据增强策略

由于我们对于图像使用数据增强，这会导致得到的BEV特征图描述信息与真实的3D检测框不一致。对于图像上的点 $p_{image}$ =[ $x_i,y_i,1$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。