百度Apollo Day数据驱动串讲

目录

一、本文目的

二、总体方法

三、数据提纯

三、数据消化

四、结论


一、本文目的

  1. 总结和梳理一下百度apollo day2022的数据驱动的技术方案
  2. 2023和2024的技术细节相对没有那么多了,但更多的是代表技术方向的演进

二、总体方法

最新的方案如下所示 from apollo day 2024

如何解决越来越复杂的问题:

这里面分为2块,第一个是全系统NN化以后,如何使用数据驱动,第二部分是如何使用大模型来构建一个整体的技术范式,当然这两部分本来就是互相交集的,其中数据驱动主要就是讲的数据闭环,也是本文想讲的重点:

整体的技术方案是什么?

从上图,全自动化、周级别这两个指标很重要,背后应该是MLOps的强大的自迭代能力,上面同样也分为高提纯+高消化2个模块,整个其实最早出现是apollo2022的李昂给出的概念;

高提纯:这个环的起点我认为是从中间问题发现开始,当发现问题,业务根据问题提出数据挖掘需求到运营车辆,此时车辆上部署了各种挖掘trigger在有限资源的情况下通过运营车辆将数据回传回来并入库,此时再结合云端的数据挖掘能力,入库的数据应该都已经结构化或者向量化,此时这个环便是高提纯

高消化:如何利用海量数据发现问题,到高效的自动化标注和端到端的模型自动化迭代,最后通过全面的仿真评测,将模型推送上车,实现OTA,这部分就是高效的消化数据,其实高消化背后的基建我觉得是有3点:

  1. 精准的数据挖掘:将数据全部结构化或者结构化手段,能够将回传数据随时用于训练优化、仿真评测集构建、问题分析和数据分布等
  2. 高效的自动化标注:其实之前理想和tesla等公司都给出了自动化标注的效率,动辄提效1000x起步,这个也是整个模型迭代的基础
  3. 端到端的模型迭代:这里在2022里面李昂说的是apollo将所有的NN模型的指标当作一个可微的系统,利用百度的基建自动化迭代能力来做持续学习,但现在2024应该是end-to-end了,大方向上应该是不会集成多个模型了
  4. 高覆盖率的评测仿真系统:后面再写他的覆盖率和对应的评测指标

三、数据提纯

如何来做数据挖掘其实在2022上讲的是比较详细的,整体来看应该是采用了自训练的对比学习和大的视觉模型检测器作为baseline。

如上图的左下角所示:

  1. 定向挖掘:一只小狗没有被检测出来,这样的数据就不需要什么分析了,直接通过定向挖掘来解决,即挖掘大量的小狗样本来加入迭代,解决漏检的问题,在右边使用白色的圆圈来表示,同时我们在白色圆圈边上增加对特征层次的聚类,得到更多的定向挖掘样本,用蓝色的圆圈表示。这种挖掘类似样本的做法称之为定向挖掘
  2. 不确定性挖掘:定向挖掘是从数据的信息量出发的,不确定性挖掘是从NN模型的角度出发的,任何的模型都会有自己的决策边界,通过模型的挖掘找到这些决策边界上的点,从而能够给模型带来额外的信息,这种称之为不确定性挖掘,用红色的圆圈表示

上述两种方式都是增加模型的信息量,同样的,加上标注,则构成了下面的完整的云端数据提纯的链路

上面值得注意的是,由于云端的存储和计算资源有限,不可能支持所有的闭环数据回传,因此车端也要采取类似的提纯措施,比如使用小模型来构建不确定性的数据、定向的回传一些需要的场景等:

整体的提纯理念:一组数据源源不断的进入整个流里面,出来的都是具备高信息量和高不确定性的提纯数据。

四、数据消化

有了数据提纯以后,如何保证数据能够高消化呢?

高消化带来的挑战是什么?

  1. 高效的自动化:高效挖掘+标注+迭代+仿真
  2. 端到端联合优化:复杂的自动驾驶模块包含多个上下游,且存在可微和不可微,无法直接端到端学习(整个放在2024可能不一定正确了,现在都是end-to-end的大模型了)
  3. 数据分布表述:数据分布一直在变,如何准确的表达和分析出当前的数据分布?

首先挨个来看,第一个是高效的自动化基建(训练引擎):

持续不断的数据挖掘+自动化迭代帮助模型的性能持续提升,并且在视频里面还提及车端的模型并未发现饱和现象

第二个是端到端autml:

整个理念上应该和现在的大模型策略是不是发生了变化,这里我就不写了,现在的技术方案应该是端到端了

第三个是数据分布描述:

利用分布作为模型优化的先验,通过合适的数据表达方式来生成这些先验信息,然后利用自动化引擎来进行端到端的优化

最后,数据消化来得到持续的模型优化和能力提升,有效地避免了优化方向出错、优化低效、优化成本高等问题:

五、模型评测

下周再写

六、结论

综上,结合第二节和第三节的内容,百度在2022和2024上都给出了高提纯、高消化的方案是数据闭环或者MLOps的核心竞争力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值