端到端泊车!ParkingE2E论文精读

论文地址:ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning

源代码:https://github.com/qintonguav/ParkingE2E

自动驾驶技术交流群:770744998

摘要

        自主泊车是智能驾驶领域中的一项关键任务。传统的泊车算法通常使用基于规则的方案来实现。然而,这些方法在复杂泊车场景中的有效性较低,因为算法设计复杂。相比之下,基于神经网络的方法往往比基于规则的方法更加直观和多功能。通过收集大量专家泊车轨迹数据,并通过基于学习的仿人策略方法,可以有效解决泊车任务。在本文中,我们采用模仿学习来执行从RGB图像到路径规划的端到端规划,通过模仿人类驾驶轨迹。我们提出的端到端方法利用目标查询编码器来融合图像和目标特征,并使用基于Transformer的解码器自回归预测未来的航点。我们在真实世界场景中进行了广泛的实验,结果表明,我们提出的方法在四个不同的真实车库中平均泊车成功率达到了87.8%。实车实验进一步验证了本文提出方法的可行性和有效性。

导言

        智能驾驶涉及三个主要任务:城市驾驶、高速公路驾驶和停车操作。自动代客泊车(AVP)和自动停车辅助(APA)系统是智能驾驶中关键的停车任务,它们在停车安全性和便利性方面提供了显著的改进。然而,主流的停车方法[1]通常基于规则,需要将整个停车过程分解为多个阶段,如环境感知、映射、车位检测、定位和路径规划。由于这些复杂模型架构的复杂性,它们更容易在紧凑的停车位或复杂场景中遇到困难。

        端到端(E2E)自动驾驶算法[3]-[7]通过将感知、预测和规划组件整合到一个统一的神经网络中进行联合优化,从而减少跨模块的累积误差。将端到端算法应用于停车场景有助于减少停车系统对手动设计特征和规则的依赖,提供全面、整体和用户友好的解决方案。

        尽管端到端自动驾驶已经显示出显著的优势,但大多数研究集中在模拟[8]上,没有验证算法在现实世界中的有效性。与城市环境的复杂性和高速公路驾驶的风险相比,停车场景的特点是低速、空间有限和高可控性。这些特点为在车辆中逐步部署端到端自动驾驶能力提供了可行的途径。我们开发了一个端到端停车神经网络,并在真实世界的停车情况下验证了算法的可行性。

        这项工作通过提出一个基于模仿学习的端到端停车算法,扩展了我们之前的工作E2E-Carla[2],该算法已成功部署并在真实环境中进行了评估。算法接收由车载摄像头捕获的环视图像,预测未来的轨迹结果,并根据预测的航点执行控制。一旦用户指定了停车位,端到端停车网络就与控制器协作,自动将车辆操纵到停车位中,直到完全停放好。本文的贡献总结如下:

  • 我们设计了一个端到端网络来执行停车任务。该网络将环视图图像转换为鸟瞰图(BEV)表示形式,并利用目标特征查询图像特征。由于轨迹点的顺序特性,我们采用了基于Transformer解码器的自回归方法来生成轨迹点。
  • 我们将端到端模型部署在真实车辆上进行测试,并验证了网络模型在各种真实场景中的停车可行性和泛化能力,为端到端网络部署提供了有效的解决方案。

文献综述

A. 鸟瞰图感知 (BEV Perception)

        鸟瞰图(BEV)表示至少有两个优点,超过了透视图表示。首先,由于其清晰的物理可解释性,它容易整合不同模态的输入。其次,BEV视图避免了透视失真问题,从而降低了规划等下游任务的复杂性。近年来,BEV表示在感知系统中得到了广泛采用。与以前的基于深度学习感知算法不同,这些算法包括特征提取模块和任务头模块,BEV感知在这两个模块旁边还包含了一个额外的视点转换模块。这个转换模块促进了传感器视图和鸟瞰图(BEV)之间的转换。

        LSS [23] 利用BEV感知进行检测和分割。该方法通过估计每个像素点的深度分布,将其投影到BEV平面上,从而获得BEV特征。DETR3D [26] 遵循DETR [25] 的基本范式,使用稀疏查询进行3D目标检测。PETR [27] 添加了3D位置嵌入,为2D特征提供3D位置信息,目的是让神经网络隐式学习深度。BEVFormer [28] 采用BEV查询进行感知,并整合了空间交叉注意力和时间自注意力机制以提升性能。BEVDepth [29] 在LSS的基础上,使用激光雷达点在训练期间进行深度监督,以提高深度估计质量,从而提升BEV感知性能。BEVFusion [30] 从摄像头和激光雷达数据中提取BEV特征,并在BEV空间中进行融合。

B. 端到端自动驾驶

        与传统的基于模块的自动驾驶解决方案相比,端到端范式[9, 10]可以通过跨模块累积误差的减少、信息丢失的预防和冗余计算的最小化,已经成为自动驾驶任务领域中一个受欢迎和突出的研究课题。

        端到端驾驶的研究最初集中在城市驾驶任务上。ChauffeurNet [11]是一种基于模仿学习的端到端方法,从专家数据中学习有效的驾驶策略。许多方法采用了提取传感器BEV特征的编码器-解码器框架,然后使用GRU(门控循环单元)解码器以自回归的方式预测航点,如Transfuser [3, 12]、Interfuser [13]和NEAT [14]。此外,CIL [15]和CILRS [16]开发了一个神经网络,它直接将前视图图像、当前测量和导航命令映射到控制信号,无需单独的PID控制器。MP3 [17]和UniAD [7]提出了一个模块化设计,但以端到端的方式联合优化了所有组件。

        近年来,已经为停车场景开发了端到端网络。Rathour等人[18]提出了一个两阶段学习框架,从图像中预测转向角和齿轮。在第一阶段,网络预测了一系列转向角的初始估计。在第二阶段,使用LSTM(长短期记忆)网络来估计最优的转向角和齿轮。Li等人[19]在后视图图像上训练了一个CNN(卷积神经网络),以自动控制转向角和速度。ParkPredict [20]提出了一个基于CNN-LSTM架构的停车槽和航点预测网络。在随后的工作中,ParkPredict+ [21]设计了一个基于transformer和CNN的模型,根据意图、图像和历史轨迹预测未来车辆轨迹。现有的端到端自动驾驶方法通常需要大量的计算资源,面临训练挑战,并在实车部署中遇到困难。另一方面,以ParkPredict为代表的停车方法主要关注从航空图像进行预测,这与我们的任务不同。我们的方法提出了一个端到端停车规划网络,它使用自回归的transformer解码器从RGB图像和目标槽中提取的BEV特征预测未来航点。

方法论

A. 预备知识:问题定义

        我们使用端到端神经网络Nθ来模仿专家轨迹进行训练,定义数据集为:

其中轨迹索引 i∈[1,M],轨迹点索引 j∈[1,Ni],相机索引 k∈[1,R],RGB图像 I,轨迹点 P 和目标停车位 S。重新组织数据集为:

其中 Q 表示预测轨迹点的长度,R 表示 RGB 相机的数量。端到端网络的优化目标如下:

其中 L 表示损失函数。

B. 基于相机的端到端神经规划器

  1. 概述:如图 2 所示,我们开发了一个端到端神经规划器,它以 RGB 图像和目标停车位作为输入。所提出的神经网络包括两个主要部分:输入编码器和自回归轨迹解码器。通过输入 RGB 图像和目标停车位,将 RGB 图像转换为 BEV 特征。然后,神经网络将 BEV 特征与目标停车位融合,并使用 Transformer 解码器以自回归方式生成下一个轨迹点。

    图 2: 方法概览。多视角 RGB 图像被处理,图像特征被转换为 BEV(鸟瞰图)表示形式。使用目标停车位生成 BEV 目标特征。我们通过目标查询将目标特征和图像 BEV 特征融合。然后我们使用自回归的 Transformer 解码器逐个获得预测的轨迹点。
  2. 编码器:我们在 BEV 视图下对输入进行编码。BEV 表示提供了车辆周围环境的俯视图,允许自车检测停车位、障碍物和标记。同时,BEV 视图提供了不同驾驶视角下一致的视点表示,从而简化了轨迹预测的复杂性。

    图 3:目标查询的架构图展示了我们将相同的位置编码添加到目标特征和相机特征上,以建立两种特征类型之间的空间关系。
    • 相机编码器:在 BEV 生成流程的开始,我们首先使用 EfficientNet [22] 从 RGB 输入中提取图像特征 Fimg∈RC×Himg×Wimg。受 LSS [23] 启发,我们学习图像特征的深度分布 ddep∈RD×Himg×Wimg 并将每个像素提升到 3D 空间。然后,我们将预测的深度分布 ddep​ 与图像特征 Fimg 相乘,以获得具有深度信息的图像特征。通过相机的外部和内部参数,将图像特征投影到 BEV 体素网格中,生成相机特征 Fcam∈RC×Hcam×Wcam​。
    • 目标编码器:为了将目标停车位与相机特征 Fcam​ 对齐,我们根据指定的停车位位置在 BEV 空间生成目标热图作为目标编码器的输入。随后,我们使用深度 CNN 神经网络提取目标停车位特征 Ftarget 以获得与 Fcam相同的维度。在训练期间,目标停车位由人类驾驶轨迹的终点确定。
    • 目标查询:通过在 BEV 空间对齐相机特征 Fcam和目标编码特征 Ftarget并使用目标特征通过交叉注意力机制查询相机特征,我们可以有效地融合两种模态。位置编码确保了在将特定 BEV 位置的特征关联时,相机特征和目标特征之间的空间对应关系得以保持。使用 Ftarget​ 作为查询,相机特征 Fcam 作为键和值,并采用注意力机制,我们获得了融合特征 Ffuse。
  3. 解码器:许多端到端规划研究 [12]–[14] 采用了 GRU 解码器以自回归方式从高维特征向量预测下一个点。然而,高维特征向量缺乏全局感知域。受到 Pix2seq [24] 的启发,我们使用 Transformer 解码器将轨迹规划视为序列预测问题。这涉及到轨迹点的自回归、逐步预测。我们的方法有效地结合了低维轨迹点和高维图像特征。

    • 轨迹序列化:轨迹序列化将轨迹点表示为离散标记。通过序列化轨迹点,位置回归可以转换为标记预测。随后,我们可以利用 Transformer 解码器以自回归方式预测轨迹点 (Pxij,Pyij) 在自车坐标系中的位置,我们采用以下序列化方法:其中 Nt​ 表示序列中标记可以编码的最大值,序列化轨迹点的符号表示为 Ser(⋅)。 Rx​ 和 Ry分别表示在 x 和 y 方向上预测范围的最大值。
    • 轨迹解码器:BEV 特征作为键和值,而序列化序列作为查询,使用 Transformer 解码器以自回归方式生成轨迹点。在训练期间,我们在序列点中添加位置嵌入,并通过掩码未知信息来实现并行化。在推理过程中,给定 BOS 标记,然后 Transformer 解码器按顺序预测后续点。然后我们将预测的点追加到序列中,重复此过程直到遇到 EOS 或达到指定的预测点数。

C. 横向和纵向控制

        在控制过程中,以 t0 表示停车开始时刻,使用端到端神经规划器基于当前时刻 t0 到当前时刻 t 的相对姿态 egot0→t 来预测路径 Tt0=Nθ′(It0,S)。目标转向角 Atar可以通过后轮反馈(RWF)方法获得,表达式如下: ​​

根据来自底盘的速度反馈 Vfeed 和转向反馈 Afeed​,以及设置的目标速度 Vtar 和计算出的目标转向 Atar,使用级联 PID 控制器实现横向和纵向控制。生成新的预测轨迹后,Tt0​​ 和 egot0→t被重置,消除了在整个车辆控制过程中依赖全局定位的必要性。

实验

A. 数据集收集

        数据集是通过车载设备收集的。为了全面进行视觉感知和轨迹跟踪,我们采用了环视摄像头来捕获RGB图像。同时,融合了航位推算技术,利用传感器数据融合算法实现稳定且精确的车辆定位。实验平台的布局和所使用的传感器在图4中展示。我们在包括地下和地面车库在内的多种停车场景中收集了数据,如图5所示。从不同环境中收集的数据有助于增强神经网络的泛化能力。

图 4: 使用长安汽车作为实验平台。该车辆利用 Intel NUC 设备执行模型推理和控制。
图 5: 使用了几种不同的车库来训练和测试系统。一些来自车库 I 和 II 的停车位数据用于训练。而剩余的未参与训练的车库 I 和 II 的停车位数据,以及从车库 III 和 IV 收集的所有停车位数据都用于测试。

B. 实施细节

        在训练过程中,使用环视摄像头图像(相机数量R为4)作为输入,目标停车位通过

停车末端的一些点来确定。轨迹序列点用于监督端到端预测结果。

        在推理过程中,通过在RViz界面软件中使用“2D-Nav-Goal”来选择目标停车位。模型接收来自环视摄像头的当前图像和目标停车位,以自回归方式预测后续n个轨迹点的位置。控制器根据路径规划结果、自车姿态和反馈信号来操控车辆,将车辆停放到指定的停车位中。值得注意的是,目标点和预测轨迹点的坐标在车辆坐标系中表示,确保轨迹序列和BEV特征在一致的坐标基础上表达。这种设计还使整个系统独立于全局坐标系。

        关于神经网络的细节,BEV特征的大小为200×200,对应实际空间范围x∈[−10m, 10m], y∈[−10m, 10m],分辨率为0.1米。在Transformer解码器中,轨迹序列化的最大值Nt为1200。轨迹解码器生成长度为30的预测序列,实现了推理精度和速度的最佳平衡。

        我们使用PyTorch框架实现了我们的方法。神经网络在NVIDIA GeForce RTX 4090 GPU上训练,batch size为16,总共训练时间约为8小时,使用了40,000帧数据。测试数据包括大约5,000帧。

C. 评估指标

  1. 模型轨迹评估:在进行真实场景实验之前,我们设计了一些评估指标来评估模型的推理能力。

    1. L2距离(L2 Dis.)L2距离指的是预测轨迹和真实轨迹航点之间的平均欧几里得距离。这个指标评估模型推理的精确度和准确性。

    2. Hausdorff距离(Haus. Dis.)Hausdorff距离指的是两个点集之间的最小距离的最大值。这个指标从点集的角度评估预测轨迹与真实轨迹的匹配程度。

    3. 傅里叶描述符差异(Four. Diff.)傅里叶描述符差异可以用来测量轨迹之间的差异。值越低表示轨迹之间的差异越小。这个指标使用一定数量的傅里叶描述符将实际和预测轨迹表示为向量。

  2. 端到端实车评估:在实车实验中,我们使用以下指标来评估端到端停车性能。

    1. 停车成功率(PSR)停车成功率描述的是自车成功停放在目标停车位的概率。

    2. 无车位率(NSR)未能在指定停车位停放的失败率。

    3. 停车违规率(PVR)停车违规率指的是车辆轻微超出指定停车位但没有阻碍或妨碍相邻停车位的情况。

    4. 平均位置误差(APE)平均位置误差是自车成功停放时目标停车位置与自车停止位置之间的平均距离。

    5. 平均方向误差(AOE)平均方向误差是自车成功停放时目标停车方向与自车停止方向之间的平均差异。

    6. 平均停车得分(APS)平均停车得分是通过综合评估停车过程中的位置误差、方向误差和成功率来计算的。得分在0到100之间分布。

    7. 平均停车时间(APT)多次停车操作的平均持续时间。停车持续时间从启动停车模式的时刻开始测量,直到车辆成功停放在指定空间,或因异常或失败而终止停车过程。

D. 定量结果

        使用我们提出的端到端停车系统,我们在四个不同的停车库中进行了闭环车辆测试,以验证我们提出系统的绩效。结果如表I所示。

        在实验中,我们在四个不同的车库进行了测试。车库I是地下车库,车库II、III和IV是地面车库。对于每个车库,我们进行了三种不同的实验场景。场景A是没有两侧障碍物的停车。场景B是左侧或右侧有车辆的停车。场景C是在附近有障碍物或墙壁的情况下停车。对于每种实验场景,我们随机选择了三个不同的停车位。我们在每个停车位的左侧和右侧都进行了大约三次停车测试。实验结果表明,我们提出的方法在不同场景下都实现了高停车成功率,展现了强大的停车能力。

        尽管最近出现了更多的端到端自动驾驶方法,但它们大多集中于解决城市驾驶场景中遇到的挑战。而像ParkPredict [20]这样的方法虽然在停车场景中得到应用,它们的任务与我们的任务有显著不同。据我们所知,目前还没有现有的有效端到端方法可以直接与我们的方法进行比较。我们在表II中比较了我们的方法(基于Transformer的解码器)和Transfuser(基于GRU的解码器)的结果。由于Transformer中的注意力机制,基于Transformer的解码器具有更好的预测精度。

E. 消融研究

        我们设计了消融实验来分析不同网络设计的影响。在网络结构方面,我们对特征融合进行了消融实验,如表III所示。我们比较了基线(目标查询)、特征连接和特征逐元素相加的结果。目标查询方法利用注意力和空间对齐机制,充分整合目标特征和BEV特征。它明确约束了目标槽和BEV图像之间的空间关系,实现了最高的轨迹预测精度。

F. 可视化

        在图6中展示了不同场景下的停车过程,展示了算法在多样化场景中的适应能力。

图 6: 展示了不同场景下的停车过程。每一行展示了一个停车案例。即使在有障碍物如车辆或墙壁占据相邻停车位的情况下,该方法仍然可以有效操纵并成功将车辆停放到指定位置。

G. 局限性

        尽管我们提出的方法在停车任务中展示了优势,但仍存在一些局限性。首先,由于数据规模和场景多样性的限制,我们的方法对移动目标的适应性较差。通过扩大数据集,可以增强模型对移动对象的适应性。其次,由于训练过程使用了专家轨迹,无法提供有效的负样本。此外,在停车过程中出现显著偏差时,缺乏有效的纠正机制,最终可能导致停车失败。随后,可以通过使用NeRF [31](Neural Radiance Field)和3DGS [32](3D Gaussian Splatting)构建一个模拟器,通过深度强化学习训练端到端模型,该模拟器可以模拟真实世界条件。最后,尽管我们的端到端停车方法取得了良好的结果,但与传统的基于规则的停车方法相比仍有差距。然而,我们相信随着端到端技术的不断发展,这个问题将得到解决。我们期望端到端停车算法将来在复杂场景中展现出优势。

结论

        在本文中,我们提出了一个基于相机的端到端停车模型。该模型输入目标停车位和环视RGB图像,通过目标查询在BEV视图中获得融合特征,并以自回归方式使用Transformer解码器预测轨迹点。随后利用轨迹规划结果进行控制。我们在多种场景中广泛评估了所提出的方法,结果证明了其可靠性和泛化能力。尽管我们的端到端方法与高度优化的基于规则的停车方法之间仍存在性能差距,但我们计划在未来的工作中进一步提高端到端停车算法的性能,期望基于学习的方法最终能够超越传统方法。我们相信我们的研究和实践将激励并激发同行研究者和工程师的思考。

停车场收费管理系统(Parking Fee Management System)的E-R图(Entity-Relationship Diagram,实体-关系图)是用来表示数据模型中实体、属性和它们之间关系的一种图形工具。下面是可能的一个简化的E-R图设计: 1. **实体 (Entities)**: - **用户(User)**: 用户编号, 姓名, 联系方式, 车牌号 - **车辆(Vehicle)**: 车牌号, 车型, 初始停车时间 - **车位(ParkingSpace)**: 车位编号, 停车位置, 是否已被占用 - **支付记录(PaymentRecord)**: 记录编号, 用户ID, 车位ID, 金额, 结算时间 2. **属性 (Attributes)**: - 用户属性可能包括:姓名(Name)、密码(Password)、手机号(Phone)、邮箱(Email) - 车辆属性可能包括:车辆颜色(Color)、车型(Model)、车辆类型(VehicleType) - 车位属性可能包括:停车位大小(Size)、是否允许过夜停车(OvernightParking) - 支付记录属性可能包括:交易状态(TransactionStatus)、付款方式(PaymentMethod) 3. **关系 (Relationships)**: - **用户-车辆关系(User-Vehicle)**: 用户拥有多个车辆,车辆关联到用户 - **车辆-车位关系(Vehicle-ParkingSpace)**: 车辆占用一个或多个车位 - **车位-支付记录关系(ParkingSpace-PaymentRecord)**: 车位对应多条支付记录 - **用户-支付记录关系(User-PaymentRecord)**: 用户有多次支付行为 4. **键 (Keys)**: - 用户可能有一个全局唯一标识(UserID) - 车位可能有一个全局唯一标识(ParkingSpaceID) - 支付记录可能有一个全局唯一标识(RecordID)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值