视觉BEV语义分割模型 Simple-BEV: What Really Matters for Multi-Sensor BEV Perception?

本文探讨了一种简单但高效的BEV模型,通过对比不同特征投影方法、分辨率、批量大小和网络结构,揭示了提升性能的关键要素。融合雷达数据后,模型性能显著提升,同时研究了雷达参数对融合效果的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

A Simple Baseline for BEV Perception Without LiDAR

本文介绍一篇简单的BEV语义分割模型,这篇文章出彩的是消融实验部分,分析了哪些因素对BEV语义分割影响比较大,此外还分析了如何更好使用Radar数据提高感知性能。

项目链接为:https://simple-bev.github.io/


1. Simple-BEV Model

整个模型架构如下图所示(在作者上传到Arxiv v1版论文中提供了下图),传感器包含多个摄像头和毫米波雷达。

  • 首先使用Resnet-101网络提取每个图像特征,然后定义3D空间 ( 100 m , 100 m , 10 m ) (100m,100m,10m) 100m100m10m,将每个子网格投影到特征图上,双线性采样特征,得到3D特征网格,大小为 ( 200 , 200 , 8 ) (200,200,8) (200,200,8)
  • 然后将毫米波雷达点云转换成图像,毫米波图像特征维度为15维;
  • 毫米波图像特征与3D特征网格相结合,压缩成BEV特征图,再使用Resnet-18网络处理BEV特征图,最后是不同的任务头;

在这里插入图片描述


2. Experiments

2.1 Unified study of performance factors

首先比较了将图像特征投影到BEV上的不同方法的性能。从下表可以看到双线性采样是优于基于深度splatting的方法,本文方法仅落后于多尺度可变形的注意力方法。在BEV语义分割中,双线性采样就可以很轻松得到较好的结果,可以不需要进行深度估计。

在这里插入图片描述
下图是深度估计和双线性采样在不同距离上的IOU比较,可以看到在近距离上深度估计效果更好,远距离上双线性采样效果更好,对于图像来说,要估计远距离的深度往往是很有挑战性的。

在这里插入图片描述

下面测量模型的性能如何随输入分辨率而变化,使用相同的分辨率进行训练和测试。使用低于448×800的分辨率会大大降低性能。论文的最佳结果是49.3,输入分辨率为672×1200。然而,该分辨率相比448x800的分辨率要慢得多(133 ms vs 83 ms),并且需要将近两倍的训练时间,针对nuscenes数据集来说,可以考虑448x800的输入分辨率。

在这里插入图片描述

下图讨论了批量大小对模型性能的影响:批量大小的增加会提高模型性能。将批量大小从2增加到40模型性能可以提高近14个点。大多数以前的工作使用的批量大小小于16,许多现有方法可能会从简单的重新训练中再受益(仅改变批量大小)。

在这里插入图片描述
下面是不同主干网对性能的影响,可以看到网络越深,性能越高,但这些主干网也对输入分辨率有着特定要求,即上面提高的448x800。
在这里插入图片描述
下面是对数据增强方法的比较。

  • 训练模型时,随机地将每个相机的图像大小调整到目标分辨率的[0.8,1.2]以内,并将其放置在中心的随机偏移处。表III(a)显示,能提高1.6个点。
  • 当随机选择相机作为“参考”相机时,即选择不同相机作为3D网格的参考系可以提高0.6个点。随机选择参考相机有助于减少BEV模块中的过拟合,定性地观察到,如果没有这种增强,分割的车辆在某些位置的某些方向上会有轻微偏差;但是随机选择相机,这种偏差消失了。
  • 之前的研究报告称,在每个训练样本中随机丢弃6个可用摄像头中的1个摄像头会带来好处。如表III(c)所示,发现相反的情况:使用所有相机表现更好。这可能是因为参考相机随机化提供了足够的正则化。

在这里插入图片描述


2.2 Multi-modality fusion analysis

下表比较了多模态融合的性能,在本文融合Radar之后模型性能提高了8个点左右,仅落后Camera+LiDAR性能5个点。

在这里插入图片描述
下表是不同毫米波雷达参数设置对多模态模型性能的影响。

  • 访问与每个雷达点相关的元数据,这包括速度等信息,有助于区分移动对象和背景,反之将降低0.7点。
  • 将所有雷达返回作为输入,通过禁用nuScenes内置的异常值过滤策略实现。过滤策略试图丢弃异常点(由多径干扰和其他问题产生),但也可能丢弃一些真实的返回。使用过滤数据而不是原始数据会导致性能下降2点。
  • 将雷达的多次扫描聚合作为输入能提高2.6个点。

在这里插入图片描述

### BEVFormer 3D Perception and Generation Guide #### Overview of BEVFormer Architecture BEVFormer, or Bird’s Eye View Transformer, is a novel architecture designed to handle multi-view image-based 3D perception tasks effectively. The model leverages the power of Transformers by incorporating spatial cross-attention mechanisms that allow it to aggregate information from multiple camera views into a unified bird's eye view representation[^1]. #### Key Components of BEVFormer The core components include: - **Multi-Scale Feature Extraction**: Extracts features at different scales using backbone networks like ResNet. - **Spatial Cross-Attention Module (SCA)**: This module plays an essential role in transforming feature maps extracted from images into a BEV space through learnable queries. - **Temporal Modeling with LSTM/GRU Layers**: For handling sequential data where temporal consistency matters, such as autonomous driving scenarios. ```python import torch.nn as nn class SpatialCrossAttention(nn.Module): def __init__(self, embed_dims=256, num_heads=8): super(SpatialCrossAttention, self).__init__() self.embed_dims = embed_dims self.num_heads = num_heads # Define layers here based on specific implementation details def forward(self, query, key, value): """Forward function.""" pass ``` #### Training Setup for BEVFormer To train this network successfully, one needs large-scale datasets containing synchronized multi-camera inputs along with corresponding labels indicating objects' positions within scenes captured from various angles. Preprocessing steps involve normalizing input images and converting them into tensors suitable for feeding into neural networks[^2]. #### Evaluation Metrics Used With BEVFormer Models Common metrics used when evaluating models built upon BEVFormer architectures typically focus on accuracy measures related to object detection performance under different conditions including but not limited to Intersection over Union (IoU), Average Precision (AP)[^3].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值