长短期约束驱动的自动驾驶安全强化学习

长短期约束驱动的自动驾驶安全强化学习

image

附赠自动驾驶最全的学习资料和量产经验:链接

摘要

本文介绍了长短期约束驱动的自动驾驶安全强化学习。强化学习(RL)已被广泛应用于决策任务中,但是由于与环境交互的要求,它无法保证智能体在训练过程中的安全性,这严重限制了其在自动驾驶等工业应用中的使用。安全RL方法通过约束预期的安全性违反成本作为训练目标来处理这个问题,但是仍然允许不安全状态的发生,这在自动驾驶任务中是不可接受的。此外,这些方法很难在成本和回报预期之间实现平衡,从而导致算法的学习性能下降。本文提出了一种基于长短期约束(LSTC)的新算法,用于安全RL。短期约束旨在保证车辆探索的短期状态安全性,而长期约束则确保车辆在整个决策过程中的整体安全性。此外,本文还开发了一种基于拉格朗日乘子的双约束优化的安全RL方法,以优化端到端自动驾驶的训练过程。本文在MetaDrive仿真器中进行全面实验。实验结果表明,与最先进的方法相比,本文所提出的方法在连续状态和行为任务中实现了更高的安全性,并且在远程决策任务中展现出更优的探索性能。

主要贡献

本文的主要贡献总结如下:

1)本文提出了安全RL的长期和短期约束,旨在解决传统基于CMDP的方法中无限制的探索问题,并且提高了车辆智能体的安全性;

2)为了在不牺牲性能的情况下确保安全性,本文为自动驾驶开发了一种具有双约束优化的安全RL方法,该方法能够解决所提出的LSTC在训练过程中的约束优化问题;

3)本文在MetaDrive仿真器中进行全面实验,实验结果表明,所提出的方法在驾驶成功率和复杂场景中的鲁棒性方面优于最先进的(SOTA)方法。

论文图片和表格

image

image

image

image

image

image

image

image

image

image

总结

为了解决现有安全RL方法在训练过程中出现的不安全状态问题,本文提出了一种基于长短期约束的自动驾驶安全强化学习方法。本文首先提出了安全RL的长期和短期约束来解决无限制的探索问题,然后开发了一种具有双约束优化的自动驾驶安全RL方法来解决约束优化问题。本文所提出的方法通过结合长期和短期约束,有效地将车辆探索限制在安全空间内,以确保车辆安全性。在MetaDrive仿真器中的实验表明,与SOTA方法相比,本文方法在复杂场景下的自动驾驶连续控制任务中优于传统的基于CMDP和现有的安全RL方法,并且展现出更优的安全性和学习性能。未来的工作将着重于解决不同场景的短期约束的动态序列长度问题,以进一步提高安全性和学习性能。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值