HOPE：基于强化学习的混合策略路径规划器，适用于多样化停车场景-CSDN博客

本文链接：https://blog.csdn.net/weixin_42783201/article/details/147906312

摘要

自动停车是自动驾驶技术中备受期待的应用。然而，现有的路径规划方法因无法处理现实中多样且复杂的停车场景而显得不足。非学习方法虽然能提供可靠的规划结果，但在复杂场合下表现脆弱；而基于学习的方法擅长探索，却难以稳定收敛到可行解。为结合两者的优势，我们提出了混合策略路径规划器（HOPE）。这一创新方案通过将强化学习智能体与Reeds-Shepp曲线结合，实现了跨场景的高效规划。HOPE通过动作掩码机制引导强化学习智能体的探索，并利用Transformer融合环境感知信息与掩码。为促进训练与评估，我们提出了一种基于空间与障碍物分布的停车场景难度分级标准。实验结果表明，我们的方法在规划成功率和跨场景泛化能力上均优于典型的基于规则算法与传统强化学习方法。我们还通过真实世界实验验证了HOPE的实用性。

I. 引言

自动停车是提升驾驶安全与效率的诱人技术[1]。自动停车系统包含感知、规划与控制等核心组件，其中路径规划算法尤为关键[2]。在停车场景中，路径规划任务需在特定物理约束下生成从起始位置到目标停车位的可行路径。相较于其他场景，停车场景的路径规划通常更具挑战性，原因包括目标点误差容限低、缺乏导航参考线[3]，以及有限空间与周围障碍物对可行解数量的限制[4]。尽管现有路径规划方法在多数简单场景中已被证明实用且稳健，但其固有的环境理解困难可能导致规划失败，尤其是在场景复杂度增加时[4]。

基于学习的规划器有潜力通过数据驱动方法理解环境并智能规划路径，摆脱对人类先验知识的依赖。尽管专家数据被用作模仿学习的基准，但由于停车场景大规模数据集的稀缺，研究者仍需手动收集数据[5]。这种监督学习方法因训练场景多样性不足，存在模型过拟合特定停车策略的风险。与此同时，强化学习（RL）在自动驾驶领域受到越来越多的关注[6]。通过与环境交互，RL方法无需标注轨迹真值即可训练智能体。然而，在复杂多样的场景中训练RL智能体仍是一项艰巨任务[7]。智能体容易陷入固定停车策略，而难以获得跨场景的泛化能力。此外，在狭窄停车位等复杂场景中，智能体的有效探索面临挑战，显著影响训练效率。

本文聚焦于在静态障碍物停车路径规划任务中应用RL方法。为实现多样化停车场景下的高效学习，我们提出了基于强化学习的混合策略路径规划器（HOPE）。该混合策略规划器旨在结合RL方法与经典几何路径规划方法Reeds-Shepp（RS）曲线[8]。在Actor与Critic网络中，采用基于Transformer的信息融合网络[9]。由于场景难度多样性对训练与测试影响显著，我们参考自动停车相关标准对场景难度进行分级。本文的主要贡献包括：

混合策略方法：在多样且具挑战性的停车场景中实现超过97%的成功率，并通过真实实验验证其泛化能力。
动作掩码计算方法：提出路径规划任务中动作掩码的计算与实现机制，通过排除强化学习智能体的不合理动作，显著提升训练效率与性能。
场景难度分级标准：提出静态停车场景的难度分级准则。通过跨不同难度级别仿真的综合实验，证明相较于基于规则与朴素强化学习方法，本方法在成功率上有显著提升。

II. 相关工作

A. 基于非学习的停车路径规划

非学习的停车场景路径规划方法主要包括基于几何的方法与采样搜索方法[3]。几何规划器通过不同类型几何曲线连接起始点与目标点[10,11]。典型几何方法包括Dubins曲线与RS曲线[8,12]。基于RS曲线的改进方法提升了其在停车场景中的性能[13,14]。采样搜索方法通过在状态空间或控制空间离散化并搜索以找到有效路径。一种广泛使用的方法是Hybrid A算法[15]，其结合车辆运动学状态空间设计A变体以生成运动学可行轨迹。Hybrid A*最初用于DARPA挑战赛，后续被改进并应用于停车路径规划任务[16,17]。作为基于规则的方法，几何与采样搜索方法均利用人类先验知识设计算法。在多数常见情况下，这些先验知识可作为强有力回退以获得满意解。然而，这些方法难以在复杂多样的停车场景中达到人类水平熟练度[18]。

另一类方法涉及基于优化的轨迹规划方法。这些方法通过将轨迹规划问题建模为最优控制问题进行求解。相关研究在碰撞避免约束构建[19]、迭代求解效率[3]与鲁棒性[20]等方面进行了改进。尽管该方法可生成符合车辆运动学的平滑路径，但其优化过程依赖其他路径规划算法（通常为Hybrid A*[19,20,21]）获取初始解。这种依赖性有助于提升计算效率，并使方法专注于优化更平滑轨迹及确定规划成功率上限。

B. 基于学习的停车路径规划

基于学习的方法为提升规划器在停车任务中的性能提供了潜在途径。现有方法主要包括模仿学习与强化学习方法。模仿学习要求可学习的规划器拟合真值数据。Liu等人采用神经网络使停车路径更贴近人类行为[22]。Rathour S等人通过模仿专家驾驶员轨迹推导停车策略[23]。其他工作包括在真实车辆上部署深度神经网络或深度循环神经网络作为行为克隆器[24,25]。然而，模仿学习方法不擅长处理超出训练集的场景，且行为克隆器的性能无法超越其模仿目标[26]。

在基于RL的方法中，智能体无需任何标注真值即可开发。蒙特卡洛树搜索方法被用于在平行停车场景中搜索可行路径[27]。Bernhard J等人通过深度Q学习（DQL）学习启发式，改进Hybrid A*算法的路径搜索过程[28,29]。Du等人直接采用DQL训练智能体在平行与垂直案例中迭代生成单步路径规划结果[30]。Yuan等人提出分层规划方法，其中高层RL智能体被训练生成初始参考解[31]。现有工作通常将任务元素映射至RL组件，并在有限场景中直接用于训练智能体。随着更复杂多样的停车场景引入，基于RL的方法探索合适停车策略的难度增加，使得获取具有泛化能力的规划器更具挑战性。

III. 预备知识

A. 强化学习路径规划

强化学习问题可建模为马尔可夫决策过程（MDP），其由四元组(S,A,p,r)定义，其中\mathcal{S}S为状态空间，A为动作空间。在路径规划问题中，状态st∈S包含车辆位置与朝向pt=(xt,yt,θt)及其他可观测障碍物与目标停车位信息。选择速度vv与转向角δ构成动作空间\A={a=(v,δ)}。状态转移概率密度p表示当前状态s_t与动作a_t下转移至下一状态s_t₊₁的概率。实践中，状态转移通过单轨自行车模型实现[32]，且确定性环境中不考虑不确定性。奖励r=r(st+1,at)由环境EE根据状态与动作在每步交互中给出。目标为学习策略π(at∣st)，以最大化折扣因子γ∈[0,1]下的未来奖励。给定起始点p0与目标点pT，可通过策略π迭代获取可行停车路径P={p0,p1,p2,…,pT}。

为获取最优策略，强化学习算法主要通过动作价值函数描述策略π下状态st采取动作at后的期望奖励：

Q函数与价值函数均可通过Bellman方程更新：

为展示本方法在不同强化学习算法中的改进，本文选择常用在线策略算法近端策略优化（PPO）[33]与离线策略算法柔性演员-评论家（SAC）[34]来获取HOPE中的强化学习策略π_θ。

1) PPO

PPO是一种在信任域内执行梯度上升的策略梯度方法。为建模更新前旧策略参数π_θold与新参数π_θ之间的变化，定义概率比为。损失函数为：

其中为时间步tt的估计优势值，ϵ为超参数，控制r_t(θ)偏离1的程度。通过取两项最小值，策略在每次迭代中在一定范围内更新，以实现稳定高效训练。

2) SAC

SAC是最大熵强化学习方法，同时最大化累积奖励与策略熵。其损失函数可表示为：

其中为增强熵项，由温度参数\alphaα缩放。通过熵正则化，SAC鼓励智能体保持策略多样性并探索不同策略。

B. Reeds-Shepp曲线

RS曲线旨在生成连接两点且满足车辆最小转向半径约束的最短路径。数学证明表明，最短路径属于48种曲线类型，可由以下9种表达式之一表示1：

此处，C表示左转或右转的圆弧段，S为直线段，∣表示其后路径段方向与前段相反。C_π_/2指中心角固定为π/2的圆弧，同一公式中标注为C_u的圆弧共享相同中心角u。

计算RS曲线时，路径尺度首先根据车辆最小转弯半径r_min归一化。随后，利用归一化的起始点、终点及表达式(5)指定的几何约束，确定每类路径各段的长度。总长度通过各段长度求和获得，并选择总长最短的曲线作为最优RS曲线。通过插值各曲线段的长度与类型，可获取沿整条曲线的路径点P={p0,p1,…,pT}。此外，各路径点处的车辆转向角可通过车辆模型计算。

IV. 方法论

A. 架构概览

图1展示了整体RL路径规划框架与网络结构。为提升训练效率，我们采用混合策略强化学习方法。HOPE将原始强化学习的可学习策略与基于RS曲线的规则策略结合。在每步交互中，智能体根据环境提供的当前状态输出动作（即单步路径规划结果）。动作在环境交互前通过动作掩码机制调整。我们采用四种形式的网络输入作为状态表示，包括障碍物距离、目标停车位、可行驶动作空间与历史轨迹信息，编码为向量或图像。设计具有可学习视图编码的Transformer结构以融合输入并获取Actor与Critic网络输出[35]。我们还使用自编码器结构预训练图像编码器。输入模态与奖励函数细节见附录A与C。算法1展示了本方法的伪代码。

B. 混合策略

为提升探索与训练效率，我们将RL策略πθ与派生RS策略πRS结合以促进规划过程。时间戳tt的混合过程可表示为函数，将来自RL策略的动作a_t∼π_θ(⋅∣s_t)与来自RS策略的动作映射为混合动作。此类动作混合过程可视为在特定时间戳激活基于规则的策略，其余时间使用强化学习策略的切换过程。

1) 基于Reeds-Shepp曲线的规则策略

式(5)中的九种表达式代表自由空间中最短路径的48种曲线类型。然而，在存在障碍物时，最短RS曲线可能不可行。为在停车场景中实现RS方法，我们在实践中进行两处改进：

计算最短KK条曲线并按长度升序验证其可行性。选择最短无碰撞路径，通过车辆模型计算规划动作。
增加表达式S(∣)C(∣)S的路径计算。尽管在无障碍物时这些路径严格次优，但在考虑障碍物时可能可行。附录B实验表明其对垂直停车有效。

2) 结合RS策略的探索与学习

训练过程中，智能体使用混合动作而非原始动作a_t进行环境探索与交互。这一选择也影响策略π_θ与Q函数或价值函数的更新。对于式(2)中的Bellman方程，参数V_ψ与Q_ϕ的更新可写为：

由于Bellman方程对参数V_ψ与Q_ϕ更新的收敛性与具体策略无关，当用π_h替换策略π时，V_ψ与Q_ϕ的迭代更新仍收敛。对于PPO中的策略更新，式(3)中的概率比r_t(θ)可重写为：

比率裁剪操作防止因π_θ与π_h间显著KL散度导致的过度梯度更新。同时，式(4)中的SAC损失可重写为：

通常，Q函数与价值函数的梯度通过使用π_h收集的数据而非π_θ进行修改，因其现在是对分布ρ_πh的估计。我们仍按式(7)与(8)更新原始RL策略π_θ，这表明混合策略π_h与RL策略π_θ均被优化。实践中，我们应用切换策略：仅当1)车辆位置到目标位置距离小于阈值d_rs，且2)存在从车辆位置到目标位置的无碰撞RS曲线时，激活RS策略。通过混合策略方法，在学习初期智能体未充分训练时，RS方法作为替代策略提供额外正例以供更新。智能体从而学习如何调整车辆位姿以探索可行停车路径。

C. 动作掩码

动作掩码已用于部分离散空间强化学习任务以过滤无效动作，提升训练效率并确保与部署条件一致[36]。通过引入动作掩码，智能体可专注于复杂决策而无需耗费大量时间学习可计算约束，同时避免应用中的无效行为。然而，在路径规划任务中，计算动作掩码（包括对所有可行动作的碰撞检测）计算成本高昂。本文提出一种计算与利用动作掩码的方法以提升强化学习在路径规划任务中的训练效率。具体而言，用Collide(s_t)表示车辆在状态s_t是否与障碍物碰撞。动作掩码提供各转向角δ下的最大安全步速v^∗：

其中s_t₊₁为在状态s_{t}st执行动作a=(v,δ)后的新状态。通过用v^∗约束Actor网络输出的原始速度v，可使用掩码动作找到无碰撞新状态。尽管计算给定动作的最大步长始终可行，但需在获取最终动作前计算动作掩码，并用其影响智能体规划。这意味着需为所有给定角度计算无碰撞速度vv。

1) 动作掩码的高效估计

我们首先引入时间戳tt的向量化障碍物距离表示l_t，其中第个元素l_t[i]为自车坐标系中角度处的最近障碍物距离，Δω为角度分辨率。在时间段Δt内以速度v行驶的距离称为步长vΔt。考虑车辆以转向角δj与步长vΔt行驶覆盖的包络区域。令表示在自车坐标系中第个角度ω_i处包络边界到原点的距离：

碰撞约束可表示为。动作掩码计算等价于通过引入新二维变量ll的优化问题：

尽管仅考虑第ii个角度ωi与转向角δj的障碍点时，求解最优lij等价于获取最大速度，但在每次交互中计算所有包络距离计算成本高昂，且的逆可能不存在。为解决此问题，我们提出预计算K个离散速度的锚定距离：

随后，可获取转向角δj下考虑所有障碍点的掩码速度的上下界：

我们取作为最大步速的保守估计，所有离散转向角δj的动作掩码通过向量化方式一次计算。由于锚定距离与时间戳t的障碍物信息无关，所有锚定距离矩阵可在训练开始前预计算。如式(13)所示，每次交互步骤的动作掩码计算简化为两矩阵比较。

2) 动作掩码与智能体策略的结合

动作掩码过程可表示为从原始动作到掩码动作的函数f_AM：

此处，f_AM仅应用于πθ，因πRS仅在存在可行RS曲线时提供动作。动作掩码还用于影响动作概率分布。我们以表示动作掩码计算的最大步长，其中f_am(a)=p表示最大安全步长为。注意到f_am(a)可作为下动作的先验概率，动作掩码可通过以下方式应用于原始网络输出的动作分布：

此处SoftMax为概率归一化操作，实践中π_θ(a_t∣s_t)采用高斯分布：

其中a_mean通过Actor网络输入s获取，a_std为可学习参数（见图1）。式(15)表明动作掩码可调整动作概率分布，并通过设f_am(a_t)=0避免无效动作。实践中还使用式(14)的后处理将速度裁剪至无碰撞范围。

V. 实验

A. 场景难度分级

为更好训练与评估本方法，我们参考自动停车相关标准将静态停车场景难度分为普通、复杂与极端三级。通常，停车位由沿路缘石边缘对齐的两侧边界车辆（或边界障碍物）定义，如图2所示。边界定义停车位长度Lpark与宽度Wpark。在我们的设置中，其他障碍物距离停车位至少Dobst以保留可行驶空间。将停车车辆宽度记为W、长度L、起始点到目标点距离Dpark。表I展示了基于上述参数的分类标准，其中更窄的停车位归类为更高难度。由于平行停车在实践中更具挑战性，我们为其引入极端难度级别[38]。此外，因更大停车距离需更长距离机动且途中遭遇更多障碍物，我们将Dpark>15.0的场景归类为复杂场景。需注意，我们未指定车辆初始朝向或位置，意味着车辆起始可为任意无碰撞配置，这增加了场景难度与多样性。

表I 停车场景难度分类

基于难度分级方法，场景可通过预定义参数生成与分类。本文场景由两部分构成：

仿真器随机生成：如图2所示，场景中的障碍物与停车位可通过多随机参数表示。障碍物包括其他静止车辆或不规则多边形障碍物。起始朝向以均值\theta_{0}=0θ0=0、标准差\text{std}(\theta_{0})=\pi/6std(θ0)=π/6的高斯分布随机设定，初始位置可为任意无碰撞配置。
真实场景数据集：我们使用Dragon Lake Parking (DLP)数据集构建仿真场景[39]。该数据集基于无人机在大型停车场采集的3.5小时视频数据构建，覆盖约400个停车位与5188辆车辆。尽管原始数据集用于意图与运动预测任务，我们过滤非停车轨迹与动态干扰车辆后获得253个静态停车场景。这些场景的起始位置沿车辆记录路径随机初始化，可归类为普通与复杂难度的垂直停车场景。

B. 实现细节

实验在开源驾驶决策仿真器Tactics2D[40]中进行。该仿真器提供激光雷达与鸟瞰图（BEV）等传感器模拟。每轮试验中，仿真器独立随机初始化来自仿真器或DLP数据集的平行或垂直停车场景。总训练轮数为100,000次，每类场景测试2,000次，训练与测试场景无重叠。场景及其参数按V-A节标准随机生成。算法与仿真的超参数详见附录表VII。

C. 结果

1) 基线对比

我们将所提方法与以下基线对比：

表II 不同场景下的规划成功率（单位：%）

算法	V(N)	P(N)	V©	P©	P(E)	D(N)	D©
RS	36.9	10.4	30.4	1.5	0.3	4.0	0.1
Hybrid A*	99.4	90.2	99.2	60.2	16.8	98.7	85.6
EBHS	96.4	95.3	92.4	89.1	43.2	91.8	61.4
PPO	93.2	74.2	82.9	69.0	58.4	65.2	34.2
SAC	93.8	33.7	92.9	29.6	18.9	33.3	32.7
HOPE(PPO)	100.0	99.4	99.8	97.5	94.2	99.5	97.6
HOPE(SAC)	100.0	99.7	100.0	99.4	97.5	99.4	98.0

（D：DLP场景）

如表II所示，基于规则的RS方法在所有场景中表现最差，尤其在复杂与极端场景中成功率低于5%。Hybrid A在普通垂直与平行场景中表现良好，但在复杂场景中成功率显著下降。EBHS通过基于学习的Q函数改进Hybrid A，在复杂与极端平行场景中成功率提升近30%。纯强化学习基线（PPO/SAC）表现优于RS但不及Hybrid A*，表明过拟合少数案例无法保证泛化能力。相比之下，无论基于PPO或SAC的HOPE在所有场景中均取得超过99.4%的成功率（普通场景）与94%以上的成功率（所有场景）。图3显示训练过程中的奖励与成功率曲线，表明本方法通过结合RL智能体与RS策略显著提升训练效率与成功率。

2) 与Hybrid A*的深入对比

作为广泛使用的方法，我们通过具体案例对比本方法与Hybrid A*。如图4所示，尽管两者在部分案例中均能成功规划，但本方法在狭窄空间（图4c,e）与需要车辆前向入库的场景（图4e）中表现更优。

3) 计算消耗

单步预测平均耗时8.5ms，其中网络前传2.7ms，动作掩码计算2.8ms，RS曲线计算3.0ms。仿真器每步耗时8.3ms用于运动学仿真与渲染。完整路径生成总耗时如表III所示。

表III 平均完整路径生成耗时（单位：微秒）

算法	V(N)	P(N)	V©	P©	P(E)	D(N)	D©
HOPE(PPO)	314.6	451.6	369.1	549.8	891.4	433.0	699.0
HOPE(SAC)	304.4	372.3	328.0	476.6	638.4	464.8	633.2

D. 消融实验

1) 结合RS曲线的混合策略

我们设计实验研究RS策略对混合策略性能的影响。混合策略的超参数为RS策略激活的阈值距离d_{rs}d__rs。实验表明，即使将d_{rs}d__rs降至1米，成功率下降不足5%，而增加d_{rs}d__rs未显著提升性能（表IV），表明RL智能体未过度依赖RS方法。此外，选择最短K=2K=2条RS路径时，算法性能接近饱和（图5）。

表IV RS曲线阈值距离实验

算法	****drs	V(N)	P(N)	V©	P©	P(E)	D(N)	D©
HOPE (PPO)	1	99.2	97.4	95.4	95.0	92.6	97.1	95.0
	10	100.0	99.4	99.8	97.5	94.2	99.5	97.6
HOPE (SAC)	1	99.8	97.8	99.4	98.9	97.8	95.8	89.1
	10	100.0	99.7	100.0	99.4	97.5	99.4	98.0

2) 其他模块消融

表V显示，移除动作掩码导致复杂平行与极端场景成功率下降20-30%；替换Transformer为MLP导致多个场景成功率下降超10%；移除BEV图像输入或自编码器预训练也会影响性能。

表V 模块消融实验结果

配置	V©	P©	P(E)	D©
完整模型	99.8	97.5	94.2	97.6
无动作掩码	78.3	76.4	71.2	65.8
替换为MLP	89.1	86.4	82.3	84.7
无BEV图像输入	92.4	90.1	88.5	89.3
无自编码器预训练	95.6	93.2	90.1	91.4