LLM增强的RLHF框架,用多模态人类反馈提升自动驾驶安全性!

导读
这是一篇发表于UbiComp 2024(CCFA)的论文,探讨了如何将基于人类反馈的强化学习(RLHF)和大语言模型(LLM)结合,用于优化自动驾驶系统的安全性。

©️【深蓝AI】编译

本文由paper一作——Yuan Sun 授权【深蓝AI】编译发布!

论文标题:Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF

论文作者:Yuan Sun, Navid Salami Pargoo,Peter Jin,Jorge Ortiz

论文地址:https://dl.acm.org/doi/abs/10.1145/3675094.3677588

01 研究背景

在自动驾驶系统的发展过程中,强化学习(RL)和大语言模型(LLM)发挥着至关重要的作用。作为机器学习的一个重要分支,强化学习致力于使智能体通过不断学习和总结经验来做出最优决策。目前已有大量研究展示了强化学习在自动驾驶领域的应用价值。例如,有研究提出利用强化学习将传感器观测数据映射到模拟环境中的控制输出;还有研究探索了深度强化学习在连续控制任务中的应用,这对自动驾驶场景具有重要意义。此外,一些研究提出了ASAP-RL这样的高效强化学习算法,该算法通过运动技能和专家先验知识来提高在密集交通环境下的学习效率和驾驶性能。还有研究提出了一种基于深度Q网络(DQN)的方法,用于训练模型并预测最优动作,以实现变道、加速和制动等决策。

近期研究越来越多地将大语言模型整合到自动驾驶系统中,利用其在决策推理和交互方面的能力。例如,一些研究将大语言模型用于增强常识推理和高层决策制定。另有研究利用大语言模型帮助自动驾驶模型模仿人类行为,从而提升端到端驾驶性能。有研究使用GPT以问答方式从美国国家公路交通安全管理局(NHTSA)的事故报告中提取关键信息,用于生成多样化的场景代码进行仿真和测试。还有研究展示了如何将大语言模型用作强大的解释器,将用户文本查询转换为交通仿真场景中结构化的车道和车辆位置规范。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值