端到端方法,目前基于learning的打不过基于rule的方法吗?

作者 | 谭日成  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/701502059

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

本文只做学术分享,如有侵权,联系删文

目标

如题所属,这篇文章,想来探究下为什么基于learning的打不过基于rule的(或者这个结论现在是否还成立),带着这个问题我们来看下相关的文献

一个不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑战中,夺得第一的,是一个Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二个思考点
motion planning(我理解的现阶段的端到端)和轨迹预测的关系(原则上motion planing是轨迹预测的一个子集,是一种限制为自车+利用导航route限制可能性的特定traj)

learning打不过rule来源于下面这篇文章,我们来审视下这个观点现在还成立吗

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先这篇文章时间点为CVPR 23 AD Challenge NuPlan,意味着已经过去一年了,我们结合当时的情况和最新的一些进展来看。

abstract

首先文中提出系统规划包括两方面-1.短期精确的规划和2.长期规划,两部分完全不同,应该独立的来看

f66d334a7ca2ea23ab0f9508a4339dbc.png
IDM是基于规则,PDM是基于学习,这是作者的两个初始base,该图展示了短期和长期,开环和闭环的评估区别,信息浓度挺高的

然后文中提出基于学习的方式在复杂的现实世界里面的不足和基于rule的价值

最后文中指出他们仅依靠简单的rule就获取了挑战赛最好的成绩。

具体细节先不看,看评估方法指标和conclusion,数据说话

评估

基于nuplan benchmark

开环评估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

闭环评估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

这里又包含两类1.非反射式CLS-NR(其他车辆不根据主车调整),2.反射式CLS-R(其他车辆根据主车行为调整,调整的方式用IDM规划器),这里我有个有趣的想法(如果理论上列举出了所有可能的合理规划器,那么这种模仿式的闭环仿真的效果评估,将会非常接近真实环境下的效果,而规划器就是对交互agent出轨迹,那么可以认为只要采样出尽可能多的agent的合理轨迹来做反射式评估,就可以训练出一个不亚于基于真实环境训练的planner,不知道前人有做过相关的工作没,先查找下这个方向相关的文献)

abbdf9991f6931765e1b990c657ed870.png 03d8e7d371c32d78f99b6561a8e05980.png
记住这张表,我们后面会基于这张表来看看最近的一些规划器的效果

上面作为对比基准,接下来我们看看目前效果比较好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(挂着学习的羊头,但卖的还是rule的狗肉^^,核心还是rule,其实是用IML学习到cost函数给TPP打分,效果完全取决于TPP(而TPP并不是学习出来的是根据rule产生的),不过意义确实完成了端到端的改造,理论上专家轨迹越多,效果越好。上限取决于后续跟进对TPP的学习化改造)
在这里可以看出改良派有两个进攻方向(个人觉得DTPP已经可以作为一个很好的对决策规划做端到端改造的框架和范式了)
a.怎么采样出更好的待选轨迹(首先基于规则采样轨迹保证整个框架基本work,其次在前述基础上换成可学习的基于model的轨迹采样)
b.怎么提升IML学习效果,能够根据专家轨迹(人类驾驶轨迹),更有效的更可迁移的学习到应对不同场景的cost function(reward model)

先上指标对比

f9cf6b52b51c30bc77709601279ffe23.png
PDM就是上文rulebased,看起来比较接近了,稍低,文中也做了对比,看原文是不是会做一些辩解

文章主要工作(缝合了之前的想法+做了自己的优化)

a tree-structured policy planner-TPP(灵感因该来源于nvidia,解决规划问题内在的多模性,不确定性,但是非TPP不可吗,有没有更优雅的办法?) a differentiable joint training framework(可微可学习的框架用于)for both ego-conditioned prediction and cost models

细节

使用了a query-centric Transformer model来进行ego condition prediction

疑问项:

  1. cost model怎么学习,又用来干什么?之前的cost是手工设计,缺陷在哪里?为什么要切换成学习?
    Deep IRL学习,逆强化学习的精髓就是通过专家sample,学习到什么是好的即一个评估函数,也可以叫rewarding function(强化学习术语,而在Deep IRL里面表现就是一个cost model),这个本质弄清楚了,也就好解释手工设计的缺陷了,就是不够丰富全面,评估不够准确。

  2. a tree-structured怎么得到?
    参考Tree-structured policy planning with learned behavior models(nvidia)

e04f0982f6fe21493d9350f1076ac5cc.png
一个示例
  1. 文中提到直接把TPP特征编码到了网络中,这种编码方式怎么做的?不同深度和宽度的TPP特征怎么对齐,让我们来看看?

556c7ea2ed2e07b02c44299697bdc659.png
维度信息,Na和Nm都是确定数量的agent和map元素,比较粗暴
3f3961b5b308b82012af12cbfa9fae3a.png
M是最大的branch数

3还有文中提到了这个框架可以有效的提取学习到的cost组件和手工设计的cost组件,这两种cost怎么整合也是一个值得注意的点?

30cd2c044946378d4663bdcc0084413f.png
上面提到的学习的cost和手工设计的cost,汇总在一起是fl
a621f051089533f4f68fd4114f7e211e.png

方法

d9461f93a0f7848450fc4006ccf2b4c5.png
迭代的方式,有点像人做决策,根据当前环境做推演,也有点像MCTS,结合MDP(马尔科夫决策过程)就可以得到最优轨迹。而这个决策树其实就是动作空间。看起来是标准的逆强化学习范式。

文中提到TPP就是对有限的状态采样来解决轨迹连续空间的规划问题。

  • 上图中个人觉得最重要的一步是Conditional Motion Prediction,也就是对应的(Tree Structure planning),其实这一步是结合了专家信息,也是这一步,区别于力大砖飞的llm,带了归纳偏置,让学习变得更简单。我们来仔细看下

126422538c9ede61ad7b05582d88ea9b.png
作者在这里说的不全面,他认为该工作最重要的是提出了query-centeric,而个人觉得trajectory tree才是关键,这个限制了学习的采样空间,从而减小了学习难度。当然负面作用可能就是极端case看起来还是不够智能。但目前是原型验证,后面可以继续优化。
073465e301b3933f6d8eadcffe84d593.png
可以看出虽然挂着学习的羊头,但卖的还是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新热乎的论文,2024年0605,指标超过了rulebased),需要接入chatgpt-4v

3619451f44952d4c040391560dfc3f3a.png
还是先上指标

总结起来就是用bev输出等作为上下文信息,用gpt-4v做resoning engine,结合Cot引导模型做出合理的轨迹选择。

d1489f797d88551afbf4fe08ef3307b7.png
framework
148cc14e9d2d188f3e01e72658b0247c.png
Cot(思维链)
2a5b6c46abbadf8d673dde019e6f792d.png
推理引擎示例

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

40a419c9475599bafb06d95494fb176b.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c2f93f199105cc5091709e00b08a05da.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

5a602a7e0e9a8e7f973aa5f25aa9df0a.jpeg

④【自动驾驶之心】全平台矩阵

8e4163b4b8490489def09ed07df77339.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值