TITS最新!基于混合策略强化学习的泊车路径规划算法~

作者 | 白鹡鸰 编辑 | 自动驾驶之心

 原文链接: https://zhuanlan.zhihu.com/p/1896300972759810380

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『规划控制』技术交流群

本文只做学术分享,如有侵权,联系删文

大家好久不见,这里是白鹡鸰!今天带着我们刚刚被T-ITS接收的论文,来线上冒个泡~

简介

如何融合规则方法与学习方法的优势,实现高效、鲁棒且通用的路径规划,是自动泊车任务面临的关键挑战。本文提出了一种基于强化学习的混合策略路径规划器(HOPE: Hybrid pOlicy Path plannEr),在模拟与真实场景中均表现优异:在各类生成/来自真实数据集的狭窄平行泊车和垂直泊车场景中规划成功率超过97%,显著优于传统方法。实车场景测试中,本文算法还成功应对了“断头路垂直泊车”等未训练过的复杂场景,验证了其泛化能力与工程实用性。

论文:HOPE: A Reinforcement Learning-Based Hybrid Policy Path Planner for Diverse Parking Scenarios

代码:https://github.com/jiamiya/HOPE

研究背景

自动泊车是提升驾驶安全性与效率的关键技术,但复杂多变的泊车场景对传统路径规划方法提出了巨大挑战。基于规则的几何或采样搜索方法在简单常见场景中表现可靠,但在狭窄车位或障碍物密集的环境中易陷入局部最优甚至规划失败。学习型方法(如强化学习)虽具备环境理解与探索能力,但训练效率低且难以稳定收敛。此外,近年来相关研究多局限于有限数量和种类的场景,泛化能力不足,且面临训练效率与部署安全性的难题。如何融合规则方法与学习方法的优势,实现高效、鲁棒且通用的泊车路径规划,成为亟待解决的核心问题。

方法介绍

针对上述挑战,本文提出了一种基于强化学习的混合策略路径规划器。通过将强化学习策略与Reeds-Shepp曲线结合,在训练中通过规则方法引导智能体探索,提升训练效率与最终成功率。此外,为了应对神经网络策略安全性问题,本文设计了一种动作掩码方法,通过计算和编码碰撞约束,显著减少训练中的无效探索,并确保规划路径的安全性。

HOPE整体框架总览
HOPE整体框架总览

如果对方法实现细节感兴趣,请阅读我们的论文和附录,其中包括且不限于:

  • 泊车场景中RS曲线类别选择

  • RS曲线与强化算法的结合方法

  • 强化学习算法选择(PPO vs. SAC)效果对比

  • 强化学习奖励函数的具体设计

  • 动作掩码的具体设计

  • HOPE训练流程

实验场景设计

对于泊车任务来说,除却算法本身的设计,搭建合理的测试流程,证明算法的有效性是我们遇到的另一问题。由于目前缺少具有公信力的评价体系,我们参考《智能泊车辅助系统性能要求及试验方法》[1]自行搭建了一套泊车场景难度的划分规则:

  • 简单场景

    • 平行泊车:目标车位距离侧面障碍物的最小距离大于4.5米,车位前后距离为max(车长+1.0米,1.25*车长);

    • 垂直泊车:目标车位距离前后障碍物的最小距离大于7.0米,车位左右总宽度大于车宽+0.85米;

  • 复杂场景

    • 平行泊车:目标车位距离侧面障碍物的最小距离大于4.0米,车位前后距离为max(车长+0.9米,1.2*车长);

    • 垂直泊车:目标车位距离前后障碍物的最小距离大于6.0米,车位左右总宽度大于车宽+0.4米;

  • 极端场景:

    • 平行泊车:目标车位距离侧面障碍物的最小距离大于3.5米,车位前后距离为max(车长+0.6米,1.1*车长);

    • 垂直泊车:暂无意义(车款+0.2米的话,驾驶员无法开门,虽然自车可以离车泊入,但是你能保证左右两边的车主不骂你吗?)

泊车场景难度的划分规则
泊车场景难度的划分规则

基于上述规则,我们使用Tactics2D[2]的原型随机生成了大量泊车场景,并筛选了DLP数据集[3]中的泊车场景作为HOPE的训练和测试数据。

实验结果

我们选取了如下算法作为比较基线:

  • RS曲线规划:几何类方法的代表

  • 混合A* 算法:已在工业界落地的搜索类算法

  • PPO和SAC(未改进)

可以看出,HOPE在各种难度和类型的泊车场景中,成功率都高于基线算法,且稳定在90%以上。越是困难的泊车场景,越能展现HOPE算法的优势。

通过可视化HOPE和混合A* 算法生成的泊入轨迹,可以看出,HOPE的轨迹通常更加简洁高效。

实车场景测试中,本文算法成功应对“断头路垂直泊车”等未训练过的复杂场景,验证了其泛化能力与工程实用性。

HOPE与其他算法在不同类型和难度的泊车场景中的成功率对比
HOPE与其他算法在不同类型和难度的泊车场景中的成功率对比
HOPE与混合A*算法在不同类型和难度的泊车场景中的生成轨迹可视化对比

参考

  1. 智能泊车辅助系统性能要求及试验方法 https://www.catarc.org.cn/upload/202012/29/202012290852465712.pdf

  2. Tactics2D: A Highly Modular and Extensible Simulator for Driving Decision-Making https://ieeexplore.ieee.org/abstract/document/10561544

  3. ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer https://ieeexplore.ieee.org/abstract/document/9922162

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值