对话智加科技李沛东！端到端时代下的自动驾驶感知如何演进？-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

论文亮点与实验细节

系数感知路线采用PV视角图像，如何利用世界模型的思路？
实际上PV视角的话其实上也是类似的。比如说大家如果想用token learn的话，也可以试一下，在直接在这个2D上做。也可以做类似的监督，也是用这个用轨迹把它做转化到下一帧，可以做一些实验。但是我们是直接事前试过，就是把PV跟BEV的这种表征同样去mix做监督的话，是效果是不好的。但我们没有试过只做PV因为我们发现因为我们还是觉得BEV feature刚才提到会有更多的geo的信息，所以我们最终就是只用了BEV feature在做的。
这个系统在具身上能用吗？
我们的并没有测试过这个，但是我觉得整体如果它是一个这种perception planning的框架的话，这个完全是可以利用类似的思路，也就是说按需感知，我并不需要做全量的感知。我可能您计算的话，我理解他可能更有一个明确的action的目标的话，还是能知道他去做感知。类似于这种视觉伺服系统的话，应该可能会比这种自动驾驶系统更好实现了。
请问bev-loss是怎么计算监督的
就是feature之间做了这个L2的loss，然后我去做一个监督的，然后这个后续我们会也会把代码开源的，所以这方面可以到时候直接看。
nuScences本身直行很多，泛化性可能存疑
对的，在rebuttal环节很多reviewer提到这个问题，所以我们后来又补充了这carla的实验。就是因为carla的场景会更加的复杂，也并不存在执行多的问题。但刚才也可以看到我们在carla上的指标，不管是这个数值的指标还是居中，我们放的这个维度的性能可以看出来都非常的好。

量产考虑

会不会相对加辅助任务的模型更难train或收敛慢一些?
我们测试过实际上加辅助任务的很多模型，我们看发现他们很多其实上都是两阶段的。比如说VAD的话，需要先一个perception model，然后再用12个，再跟planning和perception一起调。当然这个也是类似的思路，然后uniad也是类似的思路。
但实际上我们只需要一段的训练，就是只需要12个import，然后就会收敛。所以收敛上肯定是会更快的。更难衬的话更难处的话我不确定。因为实际上这个12月后训练，由于这个实验模型的不确定性，他是有时候会有一些顺出来的效果就不是特别稳定。但是整体上我觉得还是会更更比那个比他们收敛的更快。
请问这种方式的话，没有辅助任务输出，上线兜底策略一般怎么做?
我觉得上线兜底这个模块的话，它实际上是一个比较复杂的，并不纯纯是一个感知的任务。今天我们其实更多探讨的是一个感知的方案。可以看到其实我们现在这个planning的部分或者说这个planning-decoder还是一个transformer-decoder-only的一个结构。它相对来说不是做的很复杂。因为我们看到新的一些方案，可能大家会用什么diffusion，或者说一些多anchor去sample的这种方式去做。可能我们也在尝试，在planning模块也做一些更多的改进，能让最终这个轨迹也能实现一个更好的效果。这也是我们目前在在做的一个研究方向了。
这个方案里考虑时序信息融合了吗?
这个刚才可能没有提到，因为我们为了这个fair comparing，就是跟别的方案公平对比,我们这个前端的这个encoder用的就是bevformer。然后它的持续融合也就是按bevformer那样跟逆时针做这个cross-attention的方式来实现这个持续融合的。
部署到域控，大概需要多大算力，fp还是int量化么
当然会就需要控制这种比如说直行、左转、右转相关的一些数据分布，然后来实现一个更好的性能。然后部署到预控大概需要多大算力，然后IP还是int量化。这个的话我们现在是之前测试是在3090测试。然后如果比如说部署到一些用比如说OrinX之类的话，然后几乎肯定是单Orin肯定是完全跑得了的，甚至不做int8量化，单Orin能跑的。
实车部署上这种端到端方法会减少传统决策规划算法工程师的工作量？
我觉得是会减少的。因为刚才也提到了，传统规划有很多问题，就是你建模的话是非常麻烦的。这样的用端到端的方法，实际上就是可以相当于直接用一个神经网络去建立了这种映射函数，然后去简化掉的这一些建模的问题。
请问4张3090可以训练嘛，大概是多少显存?
4张3090也是可以训练的，就是这四张是可以训练的。然后四张的显存应该是差不多刚好够，就是八张2080，然后跟四张3090是差不多的显存。
如果基于优化的规划在10秒内输出最优解，端到端规划是不是就没有优势了？
这个的话倒不完全是latency的问题。因为只要在latency满足的要求下，肯定是能做出最好的性能是更好的，并不一定是完全的就越快越好。甚至可能有的公司为了做这个端到端，他们把这种这些都压的可能都超过100毫秒的也都有。

关于端到端的思考

怎么看待一段式和两段式端到端
这个我们刚开始时候也提到了，就是我不太觉得两段是端到端，它是一个完整的端到端，两段式端到端，更像是DLP模块的一个偷换概念。
实际上两段式它并不具备端到端真正所需要的这种优势，因为它的接口其实还是自定义的。然后你很多信息还是要decode再encode出来，这也就是也不可避免会有一些信息损失。这也是跟端到端这个方案设计的初衷是相悖的。所以其实就是很多宣传两段式，实际上更多的是在做一个DLP，而不是一个绝对的意义上的端到端。所以我们也说了，就是没有一段是PK两段式，只有E2E PK DLP。
未来哪里研究
这个项目接下来该往哪里研究？我觉得这个方案一方面就是说可能我们可以做一些刚才提到VIM直接出决策，引导这个信息更好的输出。同时可能我们也可以做更好的世界模型，当然可能是隐式的，并不是显示的世界模型。然后来实现一个对他更好的监督。这个可能希望就是也能有更多的人往这个方向上去投入，然后把这种安全感知的思想做的越来越好。
接下来自动驾驶该往哪里继续研究
现在其实我觉得大家在做的主要两大方向，一个就是世界模型，然后一个是这种VLM或者VLA。我觉得这都是比较有前景的一些方向。比如刚才我们也提到，可能随着世界模型做的越来越好，它会跟这种端到端的模型达到一个共同互相迭代，相辅相成，然后都做的越来越好的一个地步。
然后VLM的话，我们也提到包括我们自己也在做的。比如说用VLM直接来出这种决策信息，然后来指导感知模块和planning模块来做。
因为刚才我们也提到那个鸡生蛋蛋生鸡的问题。但是我们认为如果比如说我VLM直接出决策的话，我们就可以跳过这个问题。这样的话肯定比会比navigation信息能实现一个更好的引导。
但是我们也看到类似于Senna那些就是地平线那边工作，其实也已经在做类似的工作。但是他并没有像我们这样去做一个对下游的引导。
这个实测的话，我们在我们自己的这个车上的话，实际上实时性也是完全能满足的。然后我们在一些场景也都是目前都是在迭代的，然后是比我们之前试过别的方案都是要快很多的。
端到端的规划和基于优化的规划相比有什么优势?
我理解的话就是如果这个问题可能还是跟之前做不做端到端的这个问题类似。就是说端到端规划更重要的就是它能有上游信息的一些无损的传递。然后能如果你做优化的基于优化的规划的话，那你不可避免的话，你就是要必须考把上游的这种不确定性信息完全纳入进来做考虑。你可能你这个不确建模，然后是会然后你会做的非常的麻烦。然后有的文化优化问题，你可能并不是那么直接能求出可直接解的。然后端到端相当于就是把这种上游的不确定性，给用网络去cover掉的，然后你大部分时间都能求出一个直接解的。我觉得这是一个对整个系统工程来说，它是一个简化，就是把一些复杂的任务给用这种学习的方式还规避掉了。
实车部署时，这个在决策规划算法部分会有优化方法的后处理吗
这个方案其实还是希望能做一个不太依赖后处理的方案。然后我们也是在往这个方向去做的，然后希望是可以不用太多后处理的。
和现在特斯拉的端到端方案比怎么样？
特斯拉的方案并没有开源，这个很难去对比。但是特斯拉的从他这个FID一些就youtube上外网测试来看，它这个性能肯定是看上去测试的是会成熟很多的。我们这个方案更多还是希望大家能能在这个方向上做更多的探索。因为我们也是比较早做这种按需感知的方案的。然后可能随着参与这个方向的人越来越多，我觉得这个方案可能也会比原来的这种全量感知实现一个更好的效果。

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入~

欢迎加入国内最大的自动驾驶社区！扫码领取优惠~