清华最新!RoadBEV:BEV下的道路表面重建如何实现?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

编辑 | 自动驾驶之心

原标题:RoadBEV: Road Surface Reconstruction in Bird’s Eye View

论文链接:https://arxiv.org/pdf/2404.06605.pdf

代码链接:https://github.com/ztsrxh/RoadBEV

作者单位:清华大学 加州大学伯克利分校

cdb0bb1c767ad33302c93e1e0df6e07e.png

论文思路:

道路表面状况,尤其是几何轮廓,极大地影响自动驾驶车辆的驾驶性能。基于视觉的在线道路重建有望提前捕获道路信息。现有的解决方案如单目深度估计和立体匹配的性能表现一般。最近的鸟瞰视角(BEV)感知技术为更可靠和精确的重建提供了巨大潜力。本文统一提出了两种简单而有效的BEV道路高程重建(road elevation reconstruction)模型,分别命名为RoadBEV-mono和RoadBEV-stereo,它们分别利用单目和立体图像估计道路高程。前者直接基于从图像视图中查询的体素特征拟合高程值,而后者有效地基于表示左右体素特征差异的BEV体积识别道路高程模式。深入的分析揭示了它们与透视视图的一致性和差异。在真实世界数据集上的实验验证了模型的有效性和优越性。RoadBEV-mono和RoadBEV-stereo的高程误差分别为1.83厘米和0.56厘米。基于单目图像的BEV估计性能提高了50%。本文的模型对实际应用充满希望,为基于视觉的BEV自动驾驶感知提供了宝贵的参考。

主要贡献:

本文首次从理论和实验两个方面展示了鸟瞰视角下道路表面重建的必要性和优越性。

对于单目和立体基础方案,本文分别提出了两个模型,分别命名为RoadBEV-mono和RoadBEV-stereo。本文详细解释了它们的机制。

本文全面测试和分析了所提出模型的性能,为未来的研究提供了宝贵的见解和展望。

网络设计:

近年来,无人地面车辆(UGVs)的快速发展对车载感知系统提出了更高的要求。实时理解驾驶环境和条件对于准确的运动规划和控制至关重要[1]-[3]。对于车辆来说,道路是与物理世界接触的唯一媒介。道路表面状况决定了许多车辆特性和驾驶性能[4]。如图1(a)所示,道路的不平整性,如颠簸和坑洼,会加剧乘用车的乘坐体验,这是直观可感知的。实时道路表面状况感知,特别是几何高程(geometry elevation),极大地有助于提升乘坐舒适度[5],[6]。

与无人地面车辆(UGVs)中的其他感知任务如分割和检测相比,道路表面重建(road surface reconstruction)(RSR)是一种新兴技术,最近越来越受到关注。与现有的感知流程类似,RSR通常利用车载激光雷达(LiDAR)和摄像头传感器来保留道路表面信息。激光雷达直接扫描道路轮廓并派生出点云[7],[8]。车辆轨迹上的道路高程可以直接提取,无需复杂算法。然而,激光雷达传感器成本较高,限制了它们在经济型量产车辆上的应用。与车辆和行人等体积较大的交通物体不同,道路的不平整性通常幅度较小,因此点云的准确性至关重要。实时道路扫描上的运动补偿和过滤是必需的,这进一步要求在厘米级别的高精度定位。

基于图像的道路表面重建(RSR),作为一个三维视觉任务,在精度和分辨率方面比激光雷达(LiDAR)更有前景。它还保留了道路表面纹理,使得道路感知更加全面。基于视觉的道路高程重建实际上是一个深度估计问题。对于单目相机,可以基于单张图片实施单目深度估计,或者基于序列实施多视角立体(MVS)来直接估计深度[9]。对于双目相机,双目匹配回归视差图,这可以转换为深度[10],[11]。给定相机参数,就可以恢复相机坐标系中的道路点云。通过初步的后处理流程,最终获得道路结构和高程信息。在真值(GT)标签的指导下,可以实现高精度和可靠的RSR。

然而,图像视角下的道路表面重建(RSR)存在固有的缺点。对于特定像素的深度估计实际上是沿着垂直于图像平面方向寻找最优箱体(optimal bins)(如图1(b)中的橙色点所示)。深度方向与道路表面存在一定的角度偏差。道路轮廓特征的变化和趋势与搜索方向上的变化和趋势不一致。在深度视图中关于道路高程变化的信息线索是稀疏的。此外,每个像素的深度搜索范围是相同的,导致模型捕捉到的是全局几何层次结构而不是局部表面结构。由于全局但粗糙的深度搜索,精细的道路高程信息被破坏。由于本文关注的是垂直方向上的高程,因此在深度方向上所做的努力被浪费了。在透视视图中,远距离的纹理细节丢失,这进一步为有效的深度回归带来了挑战,除非进一步引入先验约束[12]。

从俯视图(即鸟瞰图,BEV)估计道路高程是一个自然的想法,因为高程本质上描述了垂直方向的振动。鸟瞰图是一种有效的范式,用于以统一坐标表示多模态和多视图数据[13],[14]。最近在三维目标检测和分割任务上取得的 SOTA 性能是通过基于鸟瞰图的方法实现的[15],这与透视视图不同,后者通过在视图转换的图像特征上引入估计头部来进行。图1展示了本文的动机。与在图像视图中关注全局结构不同,鸟瞰图中的重建直接在垂直方向上的一个特定小范围内识别道路特征。在鸟瞰图中投影的道路特征密集地反映了结构和轮廓变化,有助于进行有效和精细化的搜索。透视效应的影响也被抑制,因为道路在垂直于观察角度的平面上被统一表示。基于鸟瞰图特征的道路重建有望实现更高的性能。

本文重建了BEV下的道路表面,以解决上述识别出的问题。特别地,本文关注道路几何,即高程(elevation)。为了利用单目和双目图像,并展示鸟瞰图感知的广泛可行性,本文提出了两个子模型,分别命名为RoadBEV-mono和RoadBEV-stereo。遵循鸟瞰图的范例,本文定义了覆盖潜在道路起伏的感兴趣体素。这些体素通过3D-2D投影查询像素特征。对于RoadBEV-mono,本文在重塑的体素特征上引入了高程估计头。RoadBEV-stereo的结构与图像视图中的双目匹配保持一致。基于左右体素特征,在鸟瞰图中构建了一个4D代价体积,该体积通过3D卷积进行聚合。高程回归被视为对预定义箱体的分类,以实现更高效的模型学习。本文在本文作者之前发布的真实世界数据集上验证了这些模型,显示出它们比传统的单目深度估计和双目匹配方法有着巨大的优势。

02e432ce066be12c2248f32df742deef.png

图1. 本文的动机。(a)无论是单目还是双目配置,本文在鸟瞰图(BEV)中的重建方法都优于图像视图中的方法。(b)在图像视图中进行深度估计时,搜索方向与道路高程方向存在偏差。在深度视图中,道路轮廓特征是稀疏的。坑洼不容易被识别。(c)在鸟瞰图中,能够精确捕捉到轮廓振动,例如坑洼、路边台阶乃至车辙。垂直方向上的道路高程特征更加密集,也更容易识别。

9d0bd0e603ae36ef5fab4bb2c46b4ec0.png

图2. 坐标示意及真值(GT)高程标签的生成。(a)坐标(b)图像视图中的感兴趣区域(ROI)(c)鸟瞰图中的感兴趣区域(ROI)(d)在网格中生成真值(GT)标签

a6578bc600b9eeb4f2de379233c85272.png

图3. 道路图像及真值(GT)高程图的示例。

dd46ee2550a9acfa1bd629d803aedc7a.png

图4. 图像视图中感兴趣的特征体素。位于相同水平位置的堆叠体素的中心被投影到红色线段上的像素点。

d1232efdc924cdf0526638312d6b265f.png

图5. RoadBEV-mono的架构。本文利用3D到2D的投影来查询像素特征。高程估计头部使用2D卷积在重塑后的鸟瞰图(BEV)特征上提取特征。

6a7815cf36b73885af2d191718c98514.png

图6. RoadBEV-mono的机制。体素以侧视图展示。

b4eba1b4e151f7172e221776184f97b7.png

图7. RoadBEV-stereo的架构。定义在左相机坐标系下的体素查询左右特征图的像素特征。本文通过左右体素特征之间的相减,在鸟瞰图(BEV)中构建差异体积。然后,3D卷积对鸟瞰图中的4D体积进行聚合。

2592c6941bccb4b0a55ad7b5cb871677.png

图8. RoadBEV-stereo的机制。

实验结果:

e4e97bd0eb04c1b0dba98e7a519e418e.png

图9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的训练损失。

ed9eeb221353bf1d42fb70d06c5dc6aa.png

图10. 在单目和双目基础上,与SOTA模型的距离方向上的高程误差比较。

81103446c8d91ab75bcea753bf446bb8.png

图11. 由RoadBEV-mono重建的道路表面可视化。

124a719cc1a6929dca72cc96545406cb.png

图12. 由RoadBEV-stereo重建的道路表面可视化。

951195f973c4e3d547d2bf2c17f0cfdb.png 53f2768848097e11f38570873e53531f.png bd3a020293906039fe938bba41a07ae4.png eb1464b0f7273fe1a9027f0dd68d1c13.png

总结:

本文首次在鸟瞰图中重建了道路表面的高程。本文分别提出并分析了基于单目和双目图像的两种模型,分别命名为RoadBEV-mono和RoadBEV-stereo。本文发现,BEV中的单目估计和双目匹配与透视视图中的机制相同,通过缩小搜索范围和直接在高程方向挖掘特征而得到改进。在真实世界数据集上的全面实验验证了所提出的BEV体积、估计头和参数设置的可行性和优越性。对于单目相机,在BEV中的重建性能比透视视图提高了50%。同时,在BEV中,使用双目相机的性能是单目的三倍。本文提供了关于模型的深入分析和指导。本文的开创性探索也为与BEV感知、3D重建和3D检测相关的进一步研究和应用提供了宝贵的参考。

引用:

@misc{zhao2024roadbev,
title={RoadBEV: Road Surface Reconstruction in Bird's Eye View},
author={Tong Zhao and Lei Yang and Yichen Xie and Mingyu Ding and Masayoshi Tomizuka and Yintao Wei},
year={2024},
eprint={2404.06605},
archivePrefix={arXiv},
primaryClass={cs.CV}

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

1006adad5213b287f932a798963a8015.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

98c4a4d4d2dd05a320d22619f95367f9.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

0504f25bd1c67cf2bb83f407183560f4.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

f4f2aa77b3ad81387836394074cb2bfa.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值