清华最新强化学习 | 混合策略梯度对高级自动化车辆的集成决策与控制

作者 | 王汝嘉  编辑 | 汽车人

原文链接:zhuanlan.zhihu.com/p/586586304

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

后台回复【强化学习】获取本文论文!

论文思路

自我进化是实现完全自动驾驶不可或缺的。本文提出了一种基于集成决策与控制 (IDC) 的自我发展决策系统,该系统是基于强化学习 (RL) 构建的高级框架。首先,提出了一种称为约束混合策略梯度 (CMPG) 的RL算法,以持续升级IDC的驱动策略。它在惩罚方法下调整MPG,以便可以使用数据和模型解决约束优化问题。其次,设计了一种基于注意力的编码 (ABE) 方法来解决状态表示问题。它介绍了用于特征提取的嵌入网络和用于特征融合的加权网络,以实现对顺序不敏感的编码和对道路使用者的重要性区分。最后,通过融合CMPG和ABE,本文开发了IDC架构下的第一个数据驱动决策和控制系统,并将该系统部署在日常运行中运行的功能齐全的自动驾驶车辆上。实验结果表明,通过数据提升,该系统比基于模型的方法具有更好的驱动能力。它还展示了在具有真实混合交通流的信号交叉口的各种复杂场景中的安全,高效和智能驾驶行为。

主要贡献

本文提出了约束混合策略梯度 (CMPG) 算法来解决IDC的CMDP问题。CMPG是为约束优化而设计的RL算法。与基于模型的算法不同,CMPG可以同时使用交互式数据和先验模型来有效且一致地改善自动驾驶策略。

本文设计了一种基于注意力的状态编码 (ABSE) 方法来解决一般情况下道路用户的表示问题。ABSE建立了对订单不敏感的编码网络,以处理动态流量,同时捕获单个参与者的相对重要性。证明了该方法的内射性质。

通过将CMPG和ABSE融合在IDC架构中,本文作者开发了用于自动车辆的高级决策和控制系统。据本文作者所知,它是世界上第一个部署在日常操作自动驾驶汽车中的数据驱动决策和控制系统。在具有混合交通流的真实信号交叉口中验证了系统的性能。

网络设计

9a7aae3a068eaf2e0c2235c9f624e6d8.png 17fe97c0803111944e2cca9baf6b5171.png 1964ced906ecfb14f6c63c602215c268.png

智能汽车需要一个自我进化的决策系统来应对无数的角落案例。本文认为有效的数据利用率和一般的状态编码是两个实现自我进化能力的关键技术。在IDC的框架下,本文首先提出了一种新的基于数据和模型驱动的约束RL算法CMPG。因此,当使用算法作为IDC求解器时,数据可以巧妙地融合在训练好的策略中。此外,为了在不同场景中获取一般策略输入,设计了一种基于注意的方法来编码动态交通元素,同时识别其相对重要性。实验结果表明,所提出的决策系统在数据的帮助下可以达到更好的驱动性能。代理可以精确区分他人的重要性,并在复杂的交叉路口场景中实现安全高效的自动驾驶。

实验结果

bc1765ba5ab48a88ce6da6f5680d31d1.png e94d3a42ff2bdf8e2cb61fbb16f7dadc.png e346337b6e96446594d51131ad6dd014.png

参考

[1] Integrated Decision and Control for High-Level Automated Vehicles by Mixed Policy Gradient and Its Experiment Verification

往期回顾

超越所有Anchor-free方法!PP-YOLOE-R:一种高效的目标检测网络

b3977beef0b8780241a0ac7a4b42ecb6.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

323ed826b5ab27b8406c31bcce37ebf5.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

99b34d3f15932013ac71efbd09b66fd5.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值