BEV-LaneDet: a Simple and Effective 3D Lane Detection Baseline

Reenrr

已于 2024-08-19 21:43:02 修改

阅读量607

点赞数

分类专栏：车道线检测文章标签：目标检测自动驾驶

于 2023-11-11 21:06:17 首次发布

本文链接：https://blog.csdn.net/qq_43593751/article/details/134353629

版权

车道线检测专栏收录该内容

5 篇文章

订阅专栏

论文：[2210.06006] BEV-LaneDet: a Simple and Effective 3D Lane Detection Baseline (arxiv.org)

代码：GitHub - gigo-team/bev_lane_det

文献提出了一种高效和鲁棒的单目3D车道检测，称为BEV-LaneDet。主要是为了应对由于复杂的空间变换和不灵活的3D车道表示等问题。其中创新点主要分为三个：1、首先介绍了虚拟相机，统一了安装在不同车辆上的摄像机的内部/外部参数，以保证摄像机之间的空间关系的一致性。2、提出了一个简单而有效的3D车道表示称为关键点表示，适用于表示复杂多样的三维车道结构。包括置信度、聚类的嵌入、偏移、高度等。3、提出了一个轻量级的、芯片友好的基于MLP空间转换模块空间转换金字塔VRM，多尺度前视图功能转换为BEV功能。

BEV-LaneDet，这是一种高效的实时流水线，可以从单个图像中实现3D车道检测，如图1所示。右下角的原始图像由虚拟相机模块转换为输入图像。然后，输入图像被编码成前视图特征的骨干。将主干网的多尺度特征放入空间变换金字塔（STP）中以获得BEV特征。给定BEV特征，称为关键点表示的3D头部生成BEV输出和Z，即BEV车道的高度。最后，通过BEV输出和Z，我们可以获得3D车道。

图1 端到端框架说明

作者主要详细的介绍了创新点中的虚拟相机、基于空间转换金字塔的MLP、关键点表示。

不同车辆的内、外参数各不相同，对三维车道的识别结果有很大的影响。与将摄像机内外参数综合到网络特征中的方法不同，作者通过建立一个具有标准内外参数的虚拟摄像机，实现了一种快速统一摄像机内外参数的预处理方法。首先，我们在BEV平面Proad上选择四个点xk =（xk，yk，0）T，其中k = 1，2，3，4。然后将它们分别投影到当前摄像机的图像和虚拟摄像机的图像，以获得u和。最后,通过最小二乘法获得Hi，j(单应性矩阵，将当前摄像机的图像投影到虚拟摄像机的视图)。

图2 虚拟相机的原理图

基于深度的方法和基于transformer的方法在部署到自动驾驶仪芯片时计算昂贵且不友好。针对这一问题，作者提出了一种轻量级、易于部署的空间转换模块—基于MLP的视图关系模块（VRM）。该模块使用视图关系模块R来学习平坦化前视图特征和平坦化BEV特征中的任何两个像素位置之间的关系。受FPN的启发，设计了一个基于VRM的空间转换金字塔，如图3的红框所示。通过实验比较，最终分别使用输入图像的1/64分辨率特征S64和1/32分辨率特征S32进行变换，并将两者的结果进行拼接。公式如下：

)

其中R iS32表示S32的VRM，fti表示BEV特征的像素值，HWS32表示S32的形状，并且fS32 [j]表示S32上的像素值。

图3 整体结构

三维车道线的表示对三维车道线检测的结果有很大的影响。故提出了一种简单但鲁棒的表示方法来预测BEV上的3D车道。如图4所示。将BEV平面Proad划分为s1 × s2网格。每个网格代表x × x m2的面积。对BEV特征进行卷积，得到嵌入、置信度和偏移三个分支。合并这三个分支以获得BEV上的实例级通道。如果有一条通道通过该单元格，则该单元格的置信度得分设置为1。否则，置信度分数被设置为零。由于置信度分支不准确地表示车道的位置，因此偏移分支负责预测在道路地面坐标Crad =（x，y，z）的y方向上从单元格中心到车道的精确偏移。