如何应对可能发生的自动驾驶ChatGPT时刻?

295e57035c556d5a83d90b95d57fdb1b.gif

6月14日-16日,由汽车商业评论主办的“第十六届中国汽车蓝皮书论坛”在北京举行。驭势科技联合创始人、董事长兼CEO吴甘沙受邀出席,在这一以“想象”为主题的汽车产业高端对话平台,进行了题为《面对或然的大模型ChatGPT时刻,自动驾驶创业公司如何应对》的深度分享,与现场数百位重量级汽车领袖人物共同探讨自动驾驶的未来。

4a0df1d936c278c66d8ddb56fcb26b0f.jpeg

核心观点抢先看

  01

端到端可以类比人类驾驶的本能模式,人类大多数时间开车都是脑子里想着其他的事,听着音乐,以极低功耗、极低算力的方式开车,这是端到端的模式。而大模型是人类驾驶的认真模式,需要高算力、高功耗,在出现意外的时候调用。两者结合可能是未来自动驾驶实现终局的一种模式。

  02

FSD或者城市NOA是在从90分到99分的过程中,EAP这种高速NOA、行泊一体再加上通勤记忆行车,可能是在从99分到99.99分的过程中。后者也是值得去探索的,一方面把体验从99分做到99.99分,另一方面把成本极大地降低。

  03

自动驾驶创业公司的应对方式主要依托差异化竞争,通过对标EAP,打造极致“智价比”,把极致体验下沉到10万元的主流市场;同时在最难的城市场景跟随第一梯队,算法紧扣前沿,采用可模块化交付;最后,自己缺数据和算力,可以为有数据和算力的大客户提供数据闭环、运维平台和大算力训练平台的软件服务。

3a113d264a407e4971bcdde1dfd4856b.jpeg


自动驾驶的ChatGPT时刻何时来临?

我们是否真的面临自动驾驶的ChatGPT时刻?从特斯拉车主自发上传的城市FSD数据的统计曲线来看,在11.4到12.3之间呈现了快速提升的现象。虽然这个数据随时在变化,但基本上在260公里才会有一次“危险接管”。

308b913e95f18293e7ca1462298620ee.png

来源: teslafsdtracker.com

再看国内比较领先的小鹏,他表示:“过去三年高速高阶智能驾驶辅助系统能够实现1000公里一次接管,但城市道路不到10公里就会出现一次接管。”初步对比感觉特斯拉确实在快速地拉开差距,但事实上,再仔细看FSD Tracker上的“普通接管”数据,特斯拉在城市道路的普通接管频次也只有31公里,高速道路为134公里一次接管。当然,因为都是车主自发上传的数据,数据量也不是特别大,只能说明一些问题,还不能下结论。

总之,一方面特斯拉确实在快速提升,但是也无法给出已经遥遥领先的结论。如果都看“普通接管”,对比31公里一次接管和不到10公里一次接管,与国内竞争对手并没有代际差距,更何况中国的路况要比美国复杂很多。只有特斯拉的FSD真正在国内运营一段时间了,才能避免关公战秦琼的比较。

但我们有理由猜测,自动驾驶或许面临着一个突破的时刻。以下是马斯克近期面向投资人的一些说法:

·第一,算力提升10倍以上。从5760张A100的Dojo,到今年年底可能会增加到8.5万张的H100,这需要耗费上百亿美元的投资。

·第二,训练数据提升10倍以上。从100万个10秒的视频,到近期的几千万个视频。

·第三,车端算力提升5倍。从144TOPS的只能跑一亿上下参数的HW3.0,到现在720TOPS的HW4.0,并且针对Transformer进行了特定优化。

这令人猜想它是否在模型的规模上实现了巨大的提升?从一亿参数到几十亿参数,是否会出现涌现能力、举一反三、触类旁通等等,这是我们现在特别期待看到的。马斯克在5月时预告12.4能够提升5倍到10倍。结合以上数据,形成了一个非常完美的scaling law,算力10倍、数据10倍,然后模型10倍,性能变成10倍。如果真正发生,将会非常有趣。

如果对比大模型的训练,首先是10万亿个token、几万张卡训练100天的预训练,然后是专家监督下的精调,最后是人类反馈的强化学习。

1aadd3b7d68e2dd677192fb5402740f0.jpeg

这种形式与人类学习开车类似,前面18年不学开车,只学常识,形成了世界观和认知模型。18年的社会阅历就像一个预训练的过程。18岁以后,去驾校找教练指导开车,就像专家监督下的精调。拿到驾照后,从新手上路、边开边练、磕磕碰碰、熟能生巧,又像是反馈下不断强化学习的过程。所以大模型也许是真正的自动驾驶的终局,现在存在的corner case可能并不是最终靠人力穷尽,而是靠这样的方法论去消灭。

回到“思考,快与慢”的行为科学理论,大模型就像系统2,针对一些最难、少见的交通状况,需要高算力、高功耗去思考,最后解决难题。但是端到端像系统1,它可以类比人类驾驶的本能模式,人在绝大多数时间开车时,脑子都会想着其他事或是听音乐,以极低功耗、极低算力的方式开车。两者结合可能是未来自动驾驶实现终局的一种模式。

f5b0282a3e52536501c796d669e76864.png

驭势科技如何应对?

驭势科技是以L4商用车、特种车为主的一家公司,自2016年成立以来,我们有支规模不大的团队持续在做乘用车的智能驾驶,今天也跟大家进行一个分享。

01

差异化竞争

第一,像FSD这样的投资烈度毫无疑问我们没有办法去做,所以我们做差异化竞争,去对标EAP,追求极致的“智价比”。比如我们在10万元的车上是否能做到EAP。什么是EAP?特斯拉的自动驾驶分为基础版AP、EAP和FSD三个级别,EAP就是高速NOA和行泊一体,它的报价为32000元,而FSD的报价高达64000元。

今天的FSD或者城市NOA是从90分到99分的过程中,EAP这种高速NOA、行泊一体再加上通勤记忆行车,可能是在从99分到99.99分的过程中。是否能把这套系统做到3000元而不是32000元,这是一个值得去探索的地方,就是一方面把体验从99分做到99.99分,另一方面把成本极大地降低。

b3b575feafe0efbd1f3d5028f2ca99a7.png

在驭势乘用车的一条产品线中,最底端是一体机,中间是刚才提到的产品,上面则是L4和城市NOA要去共享的域控制器的形态。

J2+E3是极致成本,能够实现高速NOA和基于超声波的APA,也就是基本的行泊一体。J3+E3是极致“智价比”,在前者的基础上加上融合的APA,再加上记忆行车。在此基础上又产生一个变种J3+TDA4,在高速NOA加上记忆行车和长距离记忆泊车。最后再到上面的城市NOA。

de3df26079f816fc5192b018e87e39bc.jpeg

驭势采用极高模块复用的设计方法,这样在与主机厂和Tier1合作时可以保持非常灵活的身段,可以提供算法或是软件模块,也可以提供整体的软件包和服务,还可以把硬件的参考设计提供给合作伙伴,或是提供软硬件一体的方案,非常灵活。驭势的硬件参考设计,从一体机到基础版的行泊一体,再到极致“智价比”的行泊一体。成本虽然只有小几千块,但却能够提供对标EAP的体验。

驭势最早对团队的要求就是模块化,软件高度模块化可复用,硬件可以支持各类的计算平台。从J3到TDA到恩智浦到英飞凌,包括国产的芯驰等,确保硬件能够适配各类品牌,软件高度模块化。最开始7年,驭势将行车和泊车分开来做,然后才有了行泊一体的软件架构,基于SOA进一步提升了开发效率和功能的可扩展性。

像这样极致“智价比”的平台,J3+E3除了感知能够使用神经网络,其他像认知、决策和规控很难采用数据驱动的方法。我们在思考如何在极低成本的平台上把这些环境的神经网络跑起来,提升上限。因为基于人的规则方法,很多数据都来不及消化和处理,所以数据的利用效率很低,提升缓慢。当然,另一方面,如果运用数据驱动的方法、用神经网络,它的功能安全等级又比较低,无法达到我们经常说的ASIL-D。

cb0c9520d56d7831f99b2fec994a48f0.jpeg

所以图灵奖获得者约瑟夫·希发基思发问,为什么自动驾驶那么难?最终得出一个结论,就是基于规则,再加上数据驱动神经网络的方法进行融合。

这样的方法能否在极其低端的芯片上实现?以目标选择作为例,我们在MCU上能够跑出来一套系统,一方面是基于数据驱动的LSTM网络,另一方面基于规则,再加上synthersizer。这样一套系统,神经网络跑在一个MCU的core上,然后规则和synthesizer跑在另一个core上,当然神经网络的是QM的,另外一个是rule-based,是在ASIL D。综合起来就能够达到ASIL D的功能安全等级,同时对于代码空间和数据空间的占用,其实只有几百kb的级别,是能够达到ISO26262认证的。这就是通过一套融合的系统,一方面满足数据驱动,满足更高的性能,另一方面又是极致的成本和ASIL D的要求。

再看另外一个例子,通过生成性的对抗网络,在数据不是特别多的情况下,能够不断地通过生成性的对抗网络生成更高质量的数据。

在这个实际场景中,将很小的神经网络的算法和基于规则的方式进行融合,当处理一辆车的cut-in时,基于小神经网络能够比基于规则提前2秒多就发现cut-in的意图。总体来说,能够大幅减少假阴性达71%,另外将Recall提升50%。

这套系统也应用在了很多其他的功能上,包括纯视觉的AEB,驭势拿到了五星+的标准,能够实现85公里速度的刹停。

02
算法能力跟随第一梯队

第二,在城市场景中,达到特斯拉这样顶尖的水准,需要巨量的投资,那么我们的做法是紧跟第一梯队,在算法上紧扣前沿,并且保证可模块化交付。

过去几年,驭势在BEV Transformer、无图的Lanes Network、单帧到视频流、占用网络等方面有了很多创新。同时,下一步进行各个不同模块的视频网络化,最后实现整体的端到端大一统网络。

6b606ac75626e73c84f11161be21285c.png

驭势科技在ICRA 2024获得Track 3: Robust Occupancy Prediction第一名

在这些方面驭势也一直在跟随,像这个BEV+Transformer+Occupancy Network的网络,是驭势开发的一套系统,在最近的ICRA Robo Drive Challenge上荣获第一。驭势有很多这样性能不错的算法,都可以作为模块来进行交付。

03

为大客户服务

最后,创业公司没办法投入那么多的GPU,也没有足够多的数据,但是大客户有。尤其是一些大的OEM,有足够的数据和算力,我们可以为他们提供数据闭环、运维平台和大算力大训练平台的服务。L4自动驾驶特别需要好的闭环,因为它需要快速迭代,所以驭势在车端有一套黑匣子系统DSSAD,在云端也有一套自动驾驶训练平台。

从去年开始,我们也在将一些大模型的技术应用进去,包括场景理解、预标注、数据挖掘等。这是一个典型的自动驾驶公司或者OEM应有的平台,我们可以提供云端container的交付,也可以提供实际的一体机交付。因为有些公司不希望用云,而且它的数据量可能只需要一个24到192卡的一体机,就足够使用,我们也可以确保快速部署,落地即用。

此外,驭势有特色的运维平台。我们较早开始尝试L4系统的订阅服务的模式。当售卖一个系统后,因为这个系统相当于一个AI司机,每年AI司机可以收取一定的工资,这就是订阅服务。但订阅服务如果做的不好,是无法保障客户满意度的。假设一辆车一天工作20个小时,如果全年的可用性是99.99%,也就是一年只有差不多一小时不在工作状态,这个要求非常高。另外像L4的系统,一个激光雷达可能就需要几万块,一个域控制器又要几万块,一年的订阅费可能也就是几万块。如果说没有有很好的运维平台,那订阅服务的模式最终是会亏钱的。所以我们开发了一个好用的云服务平台,确保运维能力也可以输出。

7e334f96c71a42a5a4cb74d5d116dcf6.png

总结一下,我们保持身段灵活,可以提供软硬件一体产品、硬件参考设计、整体软件包,或是单个模块的算法软件,或者为有数据和算力的客户提供数据/云端服务,与不同Tier1或者OEM合作。第一种模式是交付对标EAP的极致智价比产品,小几千块实现高速NOA、行泊一体和记忆行车,下沉到10万块的主流乘用车市场。第二种模式是驭势有非常强大的算法,一直在紧跟特斯拉、保证SOTA性能,可以模块化交付算法模块。第三种模式是为有数据、有算力的大客户交付数据闭环方案,大算力训练方案和云端运维平台。

5c3108e27ed09256d12f28ac97e1e812.gif

95f78260ea7b4b633a3455301ccc95fe.jpeg

3eba3f754fe126115ffc3436701cae2b.jpeg

647af1556cd02fbf3d92020c5c2842ec.jpeg

21efe618a74e04133b5e645dc7984440.jpeg

9d822a571c4d33ebabc565cf90919b3f.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值