多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜（nuScenes/KITTI等）...

最新推荐文章于 2024-09-07 21:36:07 发布

自动驾驶之心

最新推荐文章于 2024-09-07 21:36:07 发布

阅读量323

点赞数

文章标签：自动驾驶算法人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247564271&idx=1&sn=9bd149f4b9f47d8788b5eb1a4e673c42&chksm=ceb9d626f9ce5f30c8e72151057de313132a32117a00aeba3a3afc826d2a5e57950a69ebf2f9&scene=126&sessionid=0

版权

多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜

近日，在nuScenes lidar semantic segmentation、Kitti instance segmentation、talk2car三个国际顶级算法竞赛榜首位置，频频被UDeer系列算法霸榜。据了解，UDeer系列算法来自浙江有鹿机器人，是一家去年10月才成立的具身智能大模型公司，创始人为原达摩院机器人实验室负责人陈俊波博士。

显然，从短时间内在各类国际竞赛中屡登榜首这些亮眼的成绩来看，虽然是初创团队，但有鹿算法核心团队并非初出茅庐，相反他们拥有顶尖的科研与创新能力，在基于大模型的多模态感知领域拥有世界一流的核心竞争力。

nuScenes lidar semantic segmentation

nuScenes数据集是目前自动驾驶领域中最流行的公开数据集之一，数据采集自波士顿和新加坡的实际自动驾驶场景，是第一个集成摄像头、激光雷达和毫米波雷达等多种传感器，实现360度全传感器覆盖的数据集。nuScenes数据集提供了二维、三维物体标注、点云分割、高精地图等丰富的标注信息，包含1000个场景，拥有140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框，数据规模和难度比KITTI数据集更高。

点云语义分割任务是点云感知中的关键任务。针对点云中的每个点，需要预测其语义标签。基于多帧融合的点云分割结果，可以获得稠密的精细感知输出，便于下游模块进行更精细规划及控制。在机器人业务场景下，对小目标的精确识别和定位能力尤为重要，有鹿团队通过点云分割的方式对这类目标进行精细化感知。为了赋予点云更多的先验语义信息，有鹿提出了基于语言模型的点云特征融合模块，首次将点云感知问题转化为自然语言序列识别问题，将点云中的每个点建模为一个句子，整个点云变为由若干句子组成的序列。借助语言模型强大的建模能力，有效融合了原始的点云信息和先验语义线索，在nuScenes排行榜中刷新了最好成绩。

有鹿的方法流程图如下图所示，对于任意一个点云语义分割模型，首先正常进行推理，将推理得到的每个点的语义标签染色到原本的输入点上，配合一个基于LM的Adapter再送入语义分割模型中，得到最终的结果。

左图为原始点云，右图为有鹿加了语义信息的点云，效果非常显著。

Kitti instance segmentation

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的计算机视觉算法评测数据集之一。数据集用于评测计算机视觉技术在车载环境下的性能。

实例分割( Instance Segmentation)是视觉经典四个任务中相对最难的一个，它既具备语义分割（Semantic Segmentation）的特点，需要做到像素层面上的分类，也具备目标检测（Object Detection）的一部分特点。即不仅需要对不同类别目标进行像素级别分割，还要对不同目标进行区分。实例分割更注重个体之间的区别。在有鹿的产品应用场景，强大的实例分割器提供了准确的视觉感知结果，同时也为自动化数据标注提供了有力的保障。

本次任务的难点在于训练集只提供200张数据，属于小样本学习。有鹿团队基于多模态Diffusion Model，在仅200张标注样本上做微调，有效提升了算法的分割精度，比原本第一名成绩提升近一倍。

有鹿的方法流程图如下图所示，首先输入待分割图片和任务对应的prompt, diffusion-based多模态编码器可以将任务信息作为控制条件，根据输入图片提取到相应特征。配合类别prompt输入经过mask generator得到最终的结果。

如下图所示，有鹿团队的方案在识别准确度和边缘分割的精细度上优势都很明显。

第二名的结果

Talk2Car

Talk2Car 数据集是一个对象引用数据集，包含了用自然语言为自动驾驶汽车编写的命令，即乘客可以通过说话的形式对自动驾驶汽车下达命令。

这是一个人机交互场景下基于多模态输入的visual grounding任务，在nuScenes原本的数据基础上增加人类指令以及对应目标的检测。传统的目标检测任务会将某一类物体全部检测出来，然而，在talk2car上需要只召回特定描述下的单一物体。这就需要模型具备理解人类指令以及推理的能力。受限于数据规模，传统的以视觉为主导的模型并不擅长进行推理，因此，有鹿使用了以语言模型为主导的端到端多模态大模型解决方案。接收原始图片和人类自然语言指令为输入，使用多模态大语言模型进行端到端训练。相比于原有方法效果有显著提升。据悉，这个方案已经应用到了有鹿目前的产品功能中，客户可以通过自然语言指令对有鹿机器人发出指令，端到端地完成自动驾驶感知及下游任务，极大地提高了产品的智能性和易用性。

有鹿的方法流程图如下图所示，图像编码器和指令编码器分别对原始输入图片和人类指令进行编码，输入基于LM的unified task solver。任务相关的Task decoder会将solver的输出解码为用户可理解的最终结果。

以下两张图是Talk2Car测试集中的例子，其中，红框代表有鹿的感知结果，绿框代表真值。

第一张图，输入的命令是："Pull up next to that second traffic cone"。难点在于，要准确理解 "second"的意思。这需要对语境和场景进行深刻理解并作出判断。结果显示，有鹿算法和真值几乎一致。

第二张图，输入的命令是：“over there!that chicken!i want to grab it!stop near it”。难点在于，“chicken”在自动驾驶场景中是很少出现的corner case，在传统的目标检测数据集中鲜有出现。通过在多模态文本对上进行预训练，有鹿的模型可以具备对这样的目标的检测能力。结果显示，有鹿算法准确识别了目标物体。

多模态感知是通用人工智能领域（AGI)的一个新兴方向。得益于ChatGPT等大语言模型(LLM)，AGI得以快速发展。有鹿的感知算法基于多模态输入和建模方式，将LLM结合物理世界（physical world）的信息输入，以及人类自然语言指令，使用多模态LLM完成在物理世界的任务。这也为有鹿团队提出LPLM（Large Physical Language Model）大模型提供了实践基础。可以预测，有鹿如可保持目前的技术创新和成果应用落地节奏，未来必将在世界人工智能领域掀起一股浪潮。

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜（nuScenes/KITTI等）...

多个世界级自动驾驶算法榜单突然被一家初创的大模型公司霸榜近日，在nuScenes lidar semantic segmentation、Kitti instance segmentation、talk2car三个国际顶级算法竞赛榜首位置，频频被UDeer系列算法霸榜。据了解，UDeer系列算法来自浙江有鹿机器人，是一家去年10月才成立的具身智能大模型公司，创始人为原达摩院机器人实验室负责人陈俊波...
复制链接

扫一扫