作者 | 谭日成 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/701502059
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
目标
如题所属,这篇文章,想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立),带着这个问题我们来看下相关的文献
一个不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑战中,夺得第一的,是一个Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二个思考点
motion planning(我理解的现阶段的端到端)和轨迹预测的关系(原则上motion planing是轨迹预测的一个子集,是一种限制为自车+利用导航route限制可能性的特定traj)
learning打不过rule来源于下面这篇文章,我们来审视下这个观点现在还成立吗
Parting with Misconceptions about Learning-based Vehicle Motion Planning
首先这篇文章时间点为CVPR 23 AD Challenge NuPlan,意味着已经过去一年了,我们结合当时的情况和最新的一些进展来看。
abstract
首先文中提出系统规划包括两方面-1.短期精确的规划和2.长期规划,两部分完全不同,应该独立的来看
然后文中提出基于学习的方式在复杂的现实世界里面的不足和基于rule的价值
最后文中指出他们仅依靠简单的rule就获取了挑战赛最好的成绩。
具体细节先不看,看评估方法指标和conclusion,数据说话
评估
基于nuplan benchmark
开环评估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics
闭环评估
in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates
这里又包含两类1.非反射式CLS-NR(其他车辆不根据主车调整),2.反射式CLS-R(其他车辆根据主车行为调整,调整的方式用IDM规划器),这里我有个有趣的想法(如果理论上列举出了所有可能的合理规划器,那么这种模仿式的闭环仿真的效果评估,将会非常接近真实环境下的效果,而规划器就是对交互agent出轨迹,那么可以认为只要采样出尽可能多的agent的合理轨迹来做反射式评估,就可以训练出一个不亚于基于真实环境训练的planner,不知道前人有做过相关的工作没,先查找下这个方向相关的文献)
上面作为对比基准,接下来我们看看目前效果比较好的planner
DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving
(挂着学习的羊头,但卖的还是rule的狗肉^^,核心还是rule,其实是用IML学习到cost函数给TPP打分,效果完全取决于TPP(而TPP并不是学习出来的是根据rule产生的),不过意义确实完成了端到端的改造,理论上专家轨迹越多,效果越好。上限取决于后续跟进对TPP的学习化改造)
在这里可以看出改良派有两个进攻方向(个人觉得DTPP已经可以作为一个很好的对决策规划做端到端改造的框架和范式了)
a.怎么采样出更好的待选轨迹(首先基于规则采样轨迹保证整个框架基本work,其次在前述基础上换成可学习的基于model的轨迹采样)
b.怎么提升IML学习效果,能够根据专家轨迹(人类驾驶轨迹),更有效的更可迁移的学习到应对不同场景的cost function(reward model)
先上指标对比
文章主要工作(缝合了之前的想法+做了自己的优化)
a tree-structured policy planner-TPP(灵感因该来源于nvidia,解决规划问题内在的多模性,不确定性,但是非TPP不可吗,有没有更优雅的办法?) a differentiable joint training framework(可微可学习的框架用于)for both ego-conditioned prediction and cost models
细节
使用了a query-centric Transformer model来进行ego condition prediction
疑问项:
cost model怎么学习,又用来干什么?之前的cost是手工设计,缺陷在哪里?为什么要切换成学习?
Deep IRL学习,逆强化学习的精髓就是通过专家sample,学习到什么是好的即一个评估函数,也可以叫rewarding function(强化学习术语,而在Deep IRL里面表现就是一个cost model),这个本质弄清楚了,也就好解释手工设计的缺陷了,就是不够丰富全面,评估不够准确。a tree-structured怎么得到?
参考Tree-structured policy planning with learned behavior models(nvidia)
文中提到直接把TPP特征编码到了网络中,这种编码方式怎么做的?不同深度和宽度的TPP特征怎么对齐,让我们来看看?
3还有文中提到了这个框架可以有效的提取学习到的cost组件和手工设计的cost组件,这两种cost怎么整合也是一个值得注意的点?
方法
文中提到TPP就是对有限的状态采样来解决轨迹连续空间的规划问题。
上图中个人觉得最重要的一步是Conditional Motion Prediction,也就是对应的(Tree Structure planning),其实这一步是结合了专家信息,也是这一步,区别于力大砖飞的llm,带了归纳偏置,让学习变得更简单。我们来仔细看下
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新热乎的论文,2024年0605,指标超过了rulebased),需要接入chatgpt-4v
总结起来就是用bev输出等作为上下文信息,用gpt-4v做resoning engine,结合Cot引导模型做出合理的轨迹选择。
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵