论文阅读--Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving(二)

长期和短期约束及状态空间定义

如图1所示,我们定义了可靠的状态空间 SfSf​ 和不可行的状态空间 SinfSinf​。在自动驾驶中,车辆的状态轨迹需要被限制在可靠的状态空间内,以确保安全。短实体线和长虚线分别表示车辆的短期和长期轨迹,蓝点代表这些轨迹中的状态。

  • 解释:该图展示了如何通过区分可行和不可行状态空间来定义长期和短期约束,以确保自动驾驶车辆在训练过程中的安全性。
图2:基于双重约束优化的安全RL方法

图2展示了我们提出的基于Actor-Critic框架的安全RL方法,其中包括了成本价值网络和验证网络。成本价值网络评估当前状态的预期成本,而验证网络则评估状态轨迹的短期可行性,以确保车辆的短期状态安全。

  • 解释:通过这种架构,我们能够在训练过程中同时考虑长期和短期的安全性,从而优化端到端自动驾驶的决策过程。
图3:MetaDrive环境

在MetaDrive环境中,如图3所示,车辆能够在各种道路条件下安全导航,实时成本值为0,表示没有发生任何危险。当车辆与其他车辆发生碰撞时,成本值增加到+1。

  • 解释:MetaDrive模拟器提供了一个逼真的测试环境,用于评估自动驾驶策略在不同交通场景下的性能和安全性。
表1:与SOTA方法的比较结果

表1展示了我们的方法(LSTC)与其他现有SOTA方法在成功率和每集成本方面的比较结果。LSTC方法在成功率上最高,每集成本最低,表明其在安全性和决策效率方面的优势。

  • 解释:实验结果表明,LSTC方法在保证安全性的同时,能够有效提高自动驾驶车辆的导航成功率,减少碰撞和其他危险事件的发生。
表2:不同复杂场景中的比较结果

在特定复杂场景(如输入坡道、急转弯、环岛和交叉路口)的测试中,表2显示LSTC方法在成功率和每集成本方面均优于其他比较方法,证明了其在处理复杂交通情况时的有效性。

  • 解释:这些结果进一步证明了LSTC方法在多样化和具有挑战性的环境中的鲁棒性和安全性,这对于自动驾驶的实际应用至关重要。
图4:不同场景中的驾驶轨迹

图4展示了在不同复杂场景中车辆的驾驶轨迹。LSTC方法的轨迹点分布均匀,表明车辆保持了一致的速度,并主要在中间车道导航,极少变道。这与PPO方法形成对比,后者的轨迹点最稀疏,表明车辆保持了高速导航而忽视了潜在的危险。

  • 解释:轨迹分析显示,LSTC方法能够在保持安全的同时,有效地导航车辆,即使在复杂的交通环境中也能保持稳定的行驶表现。

通过这些图和表的融合解释,我们可以清晰地看到LSTC方法在自动驾驶领域的潜在影响,特别是在提高安全性和决策效率方面。这些结果为未来的研究和实际应用提供了有价值的参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值