端到端方法，目前基于learning的打不过基于rule的方法吗？

自动驾驶之心

于 2024-06-16 00:01:14 发布

阅读量147

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247612432&idx=3&sn=b8b1745fcb21cd30e0d68f8cc1ea05ad&chksm=cf9a80259aa33c80a3d66868fae31ee3691974d1e6cb112413fdc3e79d77ad74bd62f68669e9&scene=126&sessionid=0

版权

作者 | 谭日成编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/701502059

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享，如有侵权，联系删文

目标

如题所属，这篇文章，想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立)，带着这个问题我们来看下相关的文献

一个不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑战中，夺得第一的，是一个Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二个思考点
motion planning(我理解的现阶段的端到端)和轨迹预测的关系(原则上motion planing是轨迹预测的一个子集，是一种限制为自车+利用导航route限制可能性的特定traj)

learning打不过rule来源于下面这篇文章，我们来审视下这个观点现在还成立吗

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先这篇文章时间点为CVPR 23 AD Challenge NuPlan，意味着已经过去一年了，我们结合当时的情况和最新的一些进展来看。

abstract

首先文中提出系统规划包括两方面-1.短期精确的规划和2.长期规划，两部分完全不同，应该独立的来看

IDM是基于规则，PDM是基于学习，这是作者的两个初始base,该图展示了短期和长期，开环和闭环的评估区别，信息浓度挺高的

然后文中提出基于学习的方式在复杂的现实世界里面的不足和基于rule的价值

最后文中指出他们仅依靠简单的rule就获取了挑战赛最好的成绩。

具体细节先不看，看评估方法指标和conclusion,数据说话

评估

基于nuplan benchmark

开环评估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

闭环评估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

这里又包含两类1.非反射式CLS-NR(其他车辆不根据主车调整)，2.反射式CLS-R(其他车辆根据主车行为调整，调整的方式用IDM规划器)，这里我有个有趣的想法(如果理论上列举出了所有可能的合理规划器，那么这种模仿式的闭环仿真的效果评估，将会非常接近真实环境下的效果，而规划器就是对交互agent出轨迹，那么可以认为只要采样出尽可能多的agent的合理轨迹来做反射式评估，就可以训练出一个不亚于基于真实环境训练的planner,不知道前人有做过相关的工作没，先查找下这个方向相关的文献)

记住这张表，我们后面会基于这张表来看看最近的一些规划器的效果

上面作为对比基准，接下来我们看看目前效果比较好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(挂着学习的羊头，但卖的还是rule的狗肉^^,核心还是rule,其实是用IML学习到cost函数给TPP打分，效果完全取决于TPP(而TPP并不是学习出来的是根据rule产生的)，不过意义确实完成了端到端的改造，理论上专家轨迹越多，效果越好。上限取决于后续跟进对TPP的学习化改造)
在这里可以看出改良派有两个进攻方向(个人觉得DTPP已经可以作为一个很好的对决策规划做端到端改造的框架和范式了)
a.怎么采样出更好的待选轨迹(首先基于规则采样轨迹保证整个框架基本work，其次在前述基础上换成可学习的基于model的轨迹采样)
b.怎么提升IML学习效果，能够根据专家轨迹(人类驾驶轨迹)，更有效的更可迁移的学习到应对不同场景的cost function(reward model)

先上指标对比

PDM就是上文rulebased，看起来比较接近了，稍低，文中也做了对比，看原文是不是会做一些辩解

文章主要工作(缝合了之前的想法+做了自己的优化)

a tree-structured policy planner-TPP(灵感因该来源于nvidia,解决规划问题内在的多模性，不确定性，但是非TPP不可吗，有没有更优雅的办法？) a differentiable joint training framework(可微可学习的框架用于)for both ego-conditioned prediction and cost models

细节

使用了a query-centric Transformer model来进行ego condition prediction

疑问项：

cost model怎么学习，又用来干什么？之前的cost是手工设计，缺陷在哪里？为什么要切换成学习？
Deep IRL学习，逆强化学习的精髓就是通过专家sample,学习到什么是好的即一个评估函数，也可以叫rewarding function(强化学习术语，而在Deep IRL里面表现就是一个cost model),这个本质弄清楚了，也就好解释手工设计的缺陷了，就是不够丰富全面，评估不够准确。
a tree-structured怎么得到？
参考Tree-structured policy planning with learned behavior models(nvidia)

一个示例

文中提到直接把TPP特征编码到了网络中，这种编码方式怎么做的？不同深度和宽度的TPP特征怎么对齐，让我们来看看？

维度信息，Na和Nm都是确定数量的agent和map元素，比较粗暴

M是最大的branch数

3还有文中提到了这个框架可以有效的提取学习到的cost组件和手工设计的cost组件，这两种cost怎么整合也是一个值得注意的点？

上面提到的学习的cost和手工设计的cost,汇总在一起是fl

方法

迭代的方式，有点像人做决策，根据当前环境做推演，也有点像MCTS，结合MDP(马尔科夫决策过程)就可以得到最优轨迹。而这个决策树其实就是动作空间。看起来是标准的逆强化学习范式。

文中提到TPP就是对有限的状态采样来解决轨迹连续空间的规划问题。

上图中个人觉得最重要的一步是Conditional Motion Prediction，也就是对应的(Tree Structure planning)，其实这一步是结合了专家信息，也是这一步，区别于力大砖飞的llm,带了归纳偏置，让学习变得更简单。我们来仔细看下

作者在这里说的不全面，他认为该工作最重要的是提出了query-centeric，而个人觉得trajectory tree才是关键，这个限制了学习的采样空间，从而减小了学习难度。当然负面作用可能就是极端case看起来还是不够智能。但目前是原型验证，后面可以继续优化。

可以看出虽然挂着学习的羊头，但卖的还是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新热乎的论文，2024年0605，指标超过了rulebased)，需要接入chatgpt-4v

还是先上指标

总结起来就是用bev输出等作为上下文信息，用gpt-4v做resoning engine,结合Cot引导模型做出合理的轨迹选择。

framework

Cot(思维链)

推理引擎示例

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频