极越AI Day 2024 纯视觉智驾技术方案解读
附赠自动驾驶最全的学习资料和量产经验:链接
为什么选择纯视觉方向以及挑战
-
规模法则(scaling laws for neural language models)
-
图像视频包含海量的信息
-
视觉包含色彩和文理的信息
-
难点:世界五彩斑斓,静态动态场景均很复杂,如何有泛化能力
视觉大模型技术框架
- 预训练感知基础大模型(VTA, vision takes all)
-
occ占据网络(分为三个子网络,应对远中近三个场景)
-
Rifle:前向视距200米
-
Pistol:前向视距120米
-
Dagger:前向视距30米
-
-
时序关联
- 特别是有遮挡场景下的处理???
- 实时建图的能力
- 动态交互场景的能力
AIGC在数据生产方面的应用
- 基于大模型的智能化智驾数据生产线
- 生成式AI解决长尾数据分布问题
自动驾驶原生地图LD
-
相比HD地图做减法,找到自动驾驶要求的最小图层
-
相比SD地图新增图层:安全图层,经验图层,实时图层
-
用自动驾驶视觉大模型生成出来的
- 99%是人生成的,1%是人工校验