多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜(nuScenes/KITTI等)...

多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜

近日,在nuScenes lidar semantic segmentation、Kitti instance segmentation、talk2car三个国际顶级算法竞赛榜首位置,频频被UDeer系列算法霸榜。据了解,UDeer系列算法来自浙江有鹿机器人,是一家去年10月才成立的具身智能大模型公司,创始人为原达摩院机器人实验室负责人陈俊波博士。

显然,从短时间内在各类国际竞赛中屡登榜首这些亮眼的成绩来看,虽然是初创团队,但有鹿算法核心团队并非初出茅庐,相反他们拥有顶尖的科研与创新能力,在基于大模型的多模态感知领域拥有世界一流的核心竞争力。

nuScenes lidar semantic segmentation

14c9bd2abbe7efcdedd31b3d6b74b19c.png

nuScenes数据集是目前自动驾驶领域中最流行的公开数据集之一,数据采集自波士顿和新加坡的实际自动驾驶场景,是第一个集成摄像头、激光雷达和毫米波雷达等多种传感器,实现360度全传感器覆盖的数据集。nuScenes数据集提供了二维、三维物体标注、点云分割、高精地图等丰富的标注信息,包含1000个场景,拥有140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框,数据规模和难度比KITTI数据集更高。

点云语义分割任务是点云感知中的关键任务。针对点云中的每个点,需要预测其语义标签。基于多帧融合的点云分割结果,可以获得稠密的精细感知输出,便于下游模块进行更精细规划及控制。在机器人业务场景下,对小目标的精确识别和定位能力尤为重要,有鹿团队通过点云分割的方式对这类目标进行精细化感知。为了赋予点云更多的先验语义信息,有鹿提出了基于语言模型的点云特征融合模块,首次将点云感知问题转化为自然语言序列识别问题,将点云中的每个点建模为一个句子,整个点云变为由若干句子组成的序列。借助语言模型强大的建模能力,有效融合了原始的点云信息和先验语义线索,在nuScenes排行榜中刷新了最好成绩。

有鹿的方法流程图如下图所示,对于任意一个点云语义分割模型,首先正常进行推理,将推理得到的每个点的语义标签染色到原本的输入点上,配合一个基于LM的Adapter再送入语义分割模型中,得到最终的结果。

08ca93d62ada8928c96bd905aac9cd3d.png

左图为原始点云,右图为有鹿加了语义信息的点云,效果非常显著。

be2cdf22e24280951b274178761d54e7.png

Kitti instance segmentation

38337ba76eb12c9d5d906a9e91555364.png

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的计算机视觉算法评测数据集之一。数据集用于评测计算机视觉技术在车载环境下的性能。

实例分割( Instance Segmentation)是视觉经典四个任务中相对最难的一个,它既具备语义分割(Semantic Segmentation)的特点,需要做到像素层面上的分类,也具备目标检测(Object Detection)的一部分特点。即不仅需要对不同类别目标进行像素级别分割,还要对不同目标进行区分。实例分割更注重个体之间的区别。在有鹿的产品应用场景,强大的实例分割器提供了准确的视觉感知结果,同时也为自动化数据标注提供了有力的保障。

本次任务的难点在于训练集只提供200张数据,属于小样本学习。有鹿团队基于多模态Diffusion Model,在仅200张标注样本上做微调,有效提升了算法的分割精度,比原本第一名成绩提升近一倍。

有鹿的方法流程图如下图所示,首先输入待分割图片和任务对应的prompt, diffusion-based多模态编码器可以将任务信息作为控制条件,根据输入图片提取到相应特征。配合类别prompt输入经过mask generator得到最终的结果。

d9267a20b6f6fa87b52ca95545704463.png

如下图所示,有鹿团队的方案在识别准确度和边缘分割的精细度上优势都很明显。

7cc387b8a81cac29d852c3f103bfcf5e.png

第二名的结果

34c190d215ee9b2d07e41a067157d0ca.png

Talk2Car

0bb9b018785ad206aff02a65798c1446.png

Talk2Car 数据集是一个对象引用数据集,包含了用自然语言为自动驾驶汽车编写的命令,即乘客可以通过说话的形式对自动驾驶汽车下达命令。

这是一个人机交互场景下基于多模态输入的visual grounding任务,在nuScenes原本的数据基础上增加人类指令以及对应目标的检测。传统的目标检测任务会将某一类物体全部检测出来,然而,在talk2car上需要只召回特定描述下的单一物体。这就需要模型具备理解人类指令以及推理的能力。受限于数据规模,传统的以视觉为主导的模型并不擅长进行推理,因此,有鹿使用了以语言模型为主导的端到端多模态大模型解决方案。接收原始图片和人类自然语言指令为输入,使用多模态大语言模型进行端到端训练。相比于原有方法效果有显著提升。据悉,这个方案已经应用到了有鹿目前的产品功能中,客户可以通过自然语言指令对有鹿机器人发出指令,端到端地完成自动驾驶感知及下游任务,极大地提高了产品的智能性和易用性。

有鹿的方法流程图如下图所示,图像编码器和指令编码器分别对原始输入图片和人类指令进行编码,输入基于LM的unified task solver。任务相关的Task decoder会将solver的输出解码为用户可理解的最终结果。

0fc21556cf0a2e6fc51182ad6b4e0257.png

以下两张图是Talk2Car测试集中的例子,其中,红框代表有鹿的感知结果,绿框代表真值。

第一张图,输入的命令是:"Pull up next to that second traffic cone"。难点在于,要准确理解 "second"的意思。这需要对语境和场景进行深刻理解并作出判断。结果显示,有鹿算法和真值几乎一致。

7d77c5e5d2eb21fc001dfbbe49d9d801.png

第二张图,输入的命令是:“over there!that chicken!i want to grab it!stop near it”。难点在于,“chicken”在自动驾驶场景中是很少出现的corner case,在传统的目标检测数据集中鲜有出现。通过在多模态文本对上进行预训练,有鹿的模型可以具备对这样的目标的检测能力。结果显示,有鹿算法准确识别了目标物体。

1d1fa771296db0dea9e69c1f932d2482.png

多模态感知是通用人工智能领域(AGI)的一个新兴方向。得益于ChatGPT等大语言模型(LLM),AGI得以快速发展。有鹿的感知算法基于多模态输入和建模方式,将LLM结合物理世界(physical world)的信息输入,以及人类自然语言指令,使用多模态LLM完成在物理世界的任务。这也为有鹿团队提出LPLM(Large Physical Language Model)大模型提供了实践基础。可以预测,有鹿如可保持目前的技术创新和成果应用落地节奏,未来必将在世界人工智能领域掀起一股浪潮。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值