强化学习真的很适用于自动驾驶吗?

作者 | SPiriT  编辑 | 汽车人

原文链接:https://www.zhihu.com/question/547768388/answer/2632353625

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心强化学习技术交流群

本文只做学术分享,如有侵权,联系删文

对于L4+级别的自动驾驶,RL是一种能够提高决策上限的技术路线。没错,仅仅是一种技术探索选择。

理想是:RL打上限 + 规则托底下限 + 海量场景库 + 全量特征输入 +……

现实是:规则 + 传统控制,已经cover 99%场景,RL在这些场景下无法保证有传统的控制决策水平。所以对于1%长尾场景,才是RL被期待的重点,但是这个东西又需要大量仿真和场景触发来学习对比,这又顶到了RL“样本类型少而无法学好”的问题……

不过,目前头部车企应该都是有RL方案探索的(注意这里RL应用层次和深浅都不一样,为避免误解,修改成“头部车企”和“RL方案探索”),和学术界搞端到端或者直接决策不同。

一方面,RL主要优化策略搜索的问题来提高效率,比如用MCTS来搜索航点(Tesla),比如用输出预测未来一段时间的位置(百度apollo),比如用来在规划时做不同决策路径的价值评估(车前有自行车是跟随还是远离还是变道等)。

另一方面,RL主要在仿真下做smart agent,其实就是模仿出现实世界的人和物的决策行为,和自动驾驶车辆做博弈,主动创造符合真实场景的人车运动,来提高或验证传统算法。

-----> 分割线

做RL的更多还是在游戏领域,因为env可控、稳定、任务明确。不过现在RL很多新领域研究确实比较香,破游戏圈的趋势也很明显,插一句,自动驾驶类的游戏ai已经是可以做得很好了,当然这和实际自动驾驶可能不是同一类问题。

现在imtaion和offline的RL研究成果尤其多,而且在游戏的工业界也有成功应用,这对降低成本和加速实验迭代是很大利好。

但需要注意,不同公司的RL人才储备和技术水平也差别很大,由于业务需求、组织发展等原因导致RL人才的技术差别巨大。而真正能商业化落地和实际表现出众,是需要大量工程实践经验和扎实项目背景做依靠的。从做出demo到实际落地并成熟商业化,不单纯是个技术问题,但RL技术路线非常值得探索,所以个人还是比较看好RL在自动驾驶落地,并且能够表现惊人,拭目以待吧。

------> 二次分割

部分资料:

  1. 特斯拉2021人工智能日AI Day完整视频(中英双字)_哔哩哔哩_bilibili

8af7e573bc33439c93f6f136e5233ac4.png
  1. 百度apollo pnc rl

05a9c8695f70e0c9d68799b3456c9a98.png

利益相关:游戏ai从业者。曾offer数家自动驾驶企业PNC岗位RL方向。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

b4c1af54955b8e118df8bbddf3b7486e.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

1ee13cd8f1697e16cb7a7ab8598f6f0b.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

372f50c1af40c4713843d5bb0412ce64.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

673549375d1c7d3ab4e4240da3946946.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值