作者 | Zhai 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1001102187
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
Mobileye CEO and CTO reveal stealth developments inAI for achieving full autonomy 2024 Mobileye Driving AI Day,ME的AI DAY,油管链接
Part2是CTO Shai 的分享

主要关注在感知(sense)和规划(plan)部分。

高效的AI系统是ME重点研发迭代的方向。
主要分为四个部分:
感知和规划中transformer 100倍加速
推理芯片EyeQ6H的高效设计
高效自动标注系统
高效模型蒸馏框架

6个AI技术革命:
ME成立1999年,最早使用机器学习应用在产品公司之一。
2012 深度学习技术兴起,ME也是最早使用该技术栈的公司之一。(题外话,据说最新的EyeQ6产品中仍然还有一些重点模块是传统机器学习方案,没有采用深度学。还是依赖强大的早期技术积累,作为产品能work好就行,不讲究技术方案)
2018 以来,生成式AI,通用学习,sim2real,逻辑推理技术发生革命,都是基于Transformer。
ME关注这些技术如何影响自动驾驶

Transformer时代之前的障碍物检测pipeline:
检测2D框,抑制重叠框,通过2D恢复3D(手段有很多,可以去搜索下,感兴趣的话),给到下游PNC

讲到GPT,后面大量内容都在这个部分:

GPT可以Tokenize 一切
输入:把多模态数据变成一序列tokens
输出:输出也是tokens序列,生成式,自回归模型
支持复杂的输入和输出结构,数据集,序列,树
障碍物检测ppl实例:
输入:单帧图片
将图片patches序列编码,
输出:图像坐标中多个障碍物坐标序列

之前方案:输入是固定规模下的输出
现在方案:学习任意序列长度的概率
关键特性:
链式法则,建模序列依赖性
生成式:使用最大似然拟合数据
工具:自监督,处理不确定性

解释链式法则:
4个车,16个坐标,32个位置,每个位置10个可能性(图像分为100patches,这里就是一个分类,不是准确坐标回归)
所以
不使用链式法则同时预测4个目标坐标维度需要 Dim = 10^32
使用链式法则,每个目标相互独立,只预测10个行*10个列可能性?
(感觉就是一个粗略比喻,不太严谨)


self attention:互相倾听
self reflecton:自我思考





transformer非常高效:
相对FCN,更加sparse,
相对cnn,支持多模态
相对LSTM/RNN,更稠密,但是只选择过去几个token

可处理所有类别输入
可处理不确定性,gpt可以输出很多合理答案,正确答案不唯一
可以输出所有类别输出,比如chatgpt可以描述很多场景
transformer终极学习机器





常规transformer不够高效,ME的方案可以无损情况下加速100倍
其中也提到ME也有尝试直接输出控制信号的端到端方案

回归主题,如何加速transformer100倍

提出STAT,在TOKEN类别,维度,连接性,增加link token

应该就是每个图像patch,降低分辨率,300用32个link token表示,cross attention在32个link token之间。
听下来是做了近似,应该有精度损失,talk说不带有精度损失?

实际应用中并行结果输出,检测结果之间没有前后顺序关系,PAR不是ME的独创,由于IO的限制,串行对芯片推理不利
Detr不是很好的处理不确定性问题

每个query有自己的输出结果,query之间是独立的,并行的



灵活和高效需要折中

EyeQ6有5种不同结构,分别处理不同算法


6比5功耗增加7w,效率增加十倍,magic就是XNN模块











总结:
展示了ME的方法论,尤其是在技术开发,芯片设计,产品定义上有不少谈及
建模方案,理论分享,能有实际上车视频结果就更好了
相对国内AI Day的“全国都能开”,“年底200城”,“无图端到端”,“VLM慢系统”等,这个talk显得非常内敛,更偏向科普性质
期待ME能够推出更多优秀产品,特别是城区NOA
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵