作者 | Deep蓝同学 编辑 | 深蓝AI
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
论文标题:
CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention
论文作者:
Yifeng Bai, Zhirong Chen, Pengpeng Liang and Erkang Cheng
导读:
本文提出了一种名为CurveFormer++的单阶段3D车道检测方法,它基于Transformer架构,利用曲线传播和注意力机制,直接从透视图像中提取特征并推断出3D车道信息。本办法直接预测3D车道曲线参数,预测结果可以直接用到下游的规划和控制任务中。©️【深蓝AI】编译
车道检测是自动驾驶感知系统的重要组成部分,它能够为自动驾驶汽车提供准确的车道信息。传统的车道检测方法主要在图像空间中进行,但这样得到的车道结果并不适合下游的规划和控制任务——因为它们需要以3D空间中的曲线参数的形式表示车道。为此,传统方法还需要一个后处理步骤,将图像空间中的2D车道结果映射到车辆坐标系中。这个后处理步骤不仅复杂耗时,而且会降低车道检测的准确性,使得传统方法在实际感知系统中的应用受到限制。
▲图1|不同三维车道检测流程的比较。(a)图像预测和后处理;(b)基于CNN的稠密BEV和预测;(c)基于Transformer的稠密BEV和预测;(d)本文提出的CurveFormer++,通过曲线查询与注意力直接预测3D车道参数©️【深蓝AI】编译
▲图2|基于Transformer的三维车道时间信息融合方法比较(a) 时序密集BEV地图融合;(b) 时序稀疏曲线查询和锚点融合©️【深蓝AI】编译
为了克服上述问题,本文提出了一种新颖的单阶段车道检测方法,名为CurveFormer++。该方法基于Transformer的架构,利用曲线传播和注意力机制,直接从透视图像特征中预测出3D空间中的车道曲线参数。与传统方法相比,本文的方法无需进行图像特征视图转换,能够更精确地捕捉车道的垂直变化,并且能够通过时间融合的方式,利用历史帧的信息,进一步提升3D车道检测的性能。
CurveFormer++是一种基于Transformer的3D车道检测算法,它利用选择性时间曲线查询和历史锚点来整合图像序列的时间信息,采用曲线交叉注意力模块计算查询与图像的相似性,并采用动态锚点范围迭代方法进行准确特征提取。
CurveFormer++由两个主要组件组成:共享的CNN骨干网络和曲线变换解码器。共享的CNN骨干网络将单个前视图图像作为输入,并输出多尺度特征图。曲线变换解码器通过曲线交叉注意力和迭代地优化锚点集合,从而传播曲线查询。最后,应用预测头输出3D车道参数。
■2.1 共享的CNN骨干网络
骨干网络将输入图像转换为多尺度特征图。在训练阶段,作者添加了一个辅助分割分支来增强共享的CNN骨干网络。
▲图3|CurveFormer++单帧3D车道检测流程图(左)和CurveFormer++-T中的时序传播融合块(右)©️【深蓝AI】编译
▲图4|动态锚点集表示曲线查询示意图(a)以及图像视图中的迭代曲线传播示意图;(b)每个动态锚点集最初遵循标准正态分布©️【深蓝AI】编译
■2.2 基于动态锚点的稀疏曲线查询
作者将查询表示为锚框,并使用4D坐标(x,y,w,h)表示。这种表示方法使得交叉注意力模块能够充分利用每个锚框的位置和大小信息。作者借鉴了DAB-DETR的思路,将其应用于基于Transformer的3D车道检测,并使用动态锚点集合。通过将曲线查询表示为有序的锚点集合,从而实现在Transformer解码器中迭代地优化曲线查询。每个Transformer解码器层都能通过一个共享参数的线性层来估计相对位置,从而实现曲线查询的逐层优化。
▲图5|上下文采样模块的示意图。(a) Deformable DETR通过位置嵌入和查询分别预测参考点和采样偏移;(b) 本文的上下文采样模块通过利用查询和图像特征来学习采样偏移©️【深蓝AI】编译
■2.3 曲线变换解码器
曲线变换解码器由三个主要模块组成:多头自注意力模块、上下文采样模块和曲线交叉注意力模块。
本文在自注意力模块中使用了可变形注意力,它只关注参考点周围的一组关键采样点,而不受特征图的空间尺寸的影响。上下文采样模块通过结合更多的相邻图像特征来预测采样偏移量。曲线交叉注意力模块将历史帧的信息传递给当前帧的初始曲线查询。
■2.4 传播融合模块
CurveFormer++设计了一个简单的时间融合模块,将历史帧的信息传播到下一帧。作者比较了四种不同的时间传播融合模块,以证明融合历史信息对检测性能的提升作用。这些模块利用历史锚点集合、历史曲线查询或历史Top-K曲线查询来传播历史信息,并通过时间自注意力来融合当前帧的初始曲线查询。
▲图6|四种时序融合模块的详细信息。(a) 利用历史锚点集;(b) 利用历史曲线查询;(c) 利用历史Top-K曲线查询;(d) 利用历史Top-K曲线查询和锚点集©️【深蓝AI】编译
CurveFormer++在多个公开数据集上展示了优异的性能,超越了其他基于CNN和Transformer的方法。CurveFormer++-T在ONCE-3DLanes数据集上表现出色,比单帧设置的CurveFormer++更高的F-Score和Recall分数。CurveFormer++的性能在OpenLane数据集上也取得显著提高,比原始版本和Persformer都表现更好。
CurveFormer++-T在x和z误差上表现更精确,显示出时间信息的融合可以提高近区域检测结果的准确性。
▲表1|ONCE-3DLanes和OpenLane数据集上的综合3D车道评估。最佳结果以粗体显示,第二佳结果用下划线表示©️【深蓝AI】编译
▲表2|ONCE-3DLanes数据集与其他最新3D车道方法的综合评估。最佳结果以粗体显示,第二佳结果用下划线表示©️【深蓝AI】编译
▲表3|在OpenLane基准测试中不同场景集上的性能比较与其他最新3D车道方法。最佳结果以粗体显示,第二佳结果用下划线表示,第三佳结果用斜体表示©️【深蓝AI】编译
▲表4|OpenLane数据集上的综合3D车道评估©️【深蓝AI】编译
▲图7|PersFormer、CurveFormer++和CurveFormer++-T的稳定性评估结果©️【深蓝AI】编译
▲表5|锚点数量和范围处模块的消融(ANCPTS:锚点;RR:范围限制)©️【深蓝AI】编译
▲表6|批处理大小和图像分辨率设置的消融(40个锚点与范围限制)©️【深蓝AI】编译
▲表7|时序传播模块的消融©️【深蓝AI】编译
▲表8|时序架构参数的消融(720x960图像分辨率)©️【深蓝AI】编译
本文提出CurveFormer++,一种基于Transformer的3D车道检测方法。它利用动态锚点集逐层优化查询,并采用曲线交叉注意力模块和上下文采样模块提取更相关的图像特征。作者还设计了锚点范围限制方法,增强了模型在表示不同长度车道时的鲁棒性。此外,作者还创新地使用稀疏曲线查询和动态锚点集对历史结果进行时序融合。实验结果表明,与现有的方法相比,CurveFormer++算法具有优异的性能。
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com② 国内首个自动驾驶学习社区
国内最大最专业,近2700人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!