Talk2BEV：大模型+自动驾驶，最热门的两大方向会碰撞出什么火花？

玩转AI大模型

于 2024-08-07 10:36:42 发布

阅读量350

点赞数 5

文章标签：自动驾驶 unix 人工智能 langchain 算法机器学习面试

本文链接：https://blog.csdn.net/2401_85375298/article/details/140984098

版权

论文标题：

========

Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

论文作者：

Tushar Choudhary1∗ , Vikrant Dewangan1∗ , Shivam Chandhok2∗ , ShubhamPriyadarshan1 , Anushka Jain1 , Arun K. Singh3 , Siddharth
Srivastava4, Krishna Murthy Jatavallabhula5† , and K. Madhava
Krishna1† 1 IIIT Hyderabad,2University of British Columbia,
3University of Tartu, 4TensorTour Inc.,5MIT

导读：

本文介绍Talk2BEV，一个用于自动驾驶场景的鸟瞰图语言接口。通过融合最近的大规模语言模型(LLM)和视觉语言模型(LVLM)的进展，Talk2BEV能够完成广泛的自动驾驶任务，包括但不限于视觉推理、空间理解和预测不安全的交通互动。我们还提出了Talk2BEV-Bench基准测试，用于评估后续大规模视觉语言模型在自动驾驶应用方面的工作。

©️【深蓝AI】编译

为了实现无人参与的安全行驶，自动驾驶系统需要理解周围的视觉世界，以做出明智的决定。这不仅需要识别特定的物体类别，还需要理解它们当前和未来可能的与环境的互动。现有的自动驾驶系统依赖于针对每个场景理解任务的特定领域模型，如检测交通参与者和标志或预测未来可能的事件。另一方面，最近在大规模语言模型和视觉语言模型方面的进展展示了一个有前景的替代方案：一个在网络规模数据上预训练的单一模型，能够执行上述所有任务，并且能够处理未预见的场景。本文探讨了如何最有效地将这样的能力与自动驾驶中传统使用的场景表示相结合。

为此，我们提出了Talk2BEV，一种语言增强的自动驾驶地图，可以实现广泛的场景理解和推理。我们的框架通过一个接口将大规模视觉语言模型与鸟瞰图映射相结合，这些映射是自动驾驶系统中广泛使用的二维语义地图。我们通过为场景中的每个对象生成对齐的图像语言特征来增强鸟瞰图。这些特征然后直接作为上下文传递给视觉语言模型的语言解码器，使其能够回答有关场景的各种查询并就潜在的未来场景做出决策。我们发现这些视觉语言模型可以解释对象的语义、材料属性、承载能力和空间概念，它们是一个取代特定领域模型的理想选择。

▲图1｜Talk2BEV 框架图

●本文提出了一种用于自动驾驶场景的语言增强BEV地图的系统，它使用预训练的图像-语言模型，不需要针对特定任务的训练或微调。

●本文提出了一种生成语言增强BEV地图的方法，它利用车辆传感器（多视图图像和激光雷达）来感知环境，然后利用图像-语言模型来为每个目标生成描述，这些描述包含目标级别和场景级别的详细信息。

●本文提出了一种回答用户查询的方法，它利用图像-语言模型作为一个通用的问答系统，它可以根据语言增强BEV地图中的上下文，生成一个合适的回答。为了提高空间推理的准确性和解释性，它还提供了对原空间运算符API的访问，以及一个特定的系统提示格式，要求图像-语言模型生成一个包含四个字段的JSON格式输出。

●本文开发并发布了Talk2BEV Bench，这是一个包含1000个人工标注BEV场景的基准，其中包含来自NuScenes数据集的20000多个问题和真值答案，用于评估图像-语言模型在自动驾驶应用中的表现。

▲图2｜Talk2BEV 系统流程图

Talk2BEV的关键思想是利用预训练的LVLM的通用视觉-语言特征增强BEV地图。系统使用三阶段流程来估计BEV地图，为BEV地图中的每个对象生成对齐的图像-语言特征，并提示LVLM解释用户查询并生成响应。语言增强地图通过计算与对象对应的图像区域和推导空间和文本描述来增强BEV。系统可以处理自由文本查询、多项选择问题和空间推理查询。响应格式为JSON格式，包括推断查询、查询可实现性、空间推理功能和解释。为了实现准确的空间推理，系统提供原始空间操作符的API。实现细节包括使用Lift-Splat-Shoot模型生成BEV地图，以及使用各种LVLM计算视觉-语言特征。

■3.1 生成BEV地图

BEV地图是一种从鸟瞰视角显示自动驾驶环境的图形表示，它可以包含道路、车辆、行人、交通信号等信息。为了生成BEV地图，文章使用了车辆传感器（多视图图像和激光雷达）来感知环境，然后使用一种基于图的SLAM方法，将每一帧的图像和深度信息转化为一个三维的点云，然后将相邻的点云进行配准，得到一个全局的几何地图。

在这里插入图片描述

▲表1｜空间运算符列表

■3.2 生成语言增强BEV地图

语言增强BEV地图是一种在BEV地图的基础上添加了语言信息的图形表示，它可以包含目标的语义类别、属性、描述等信息。为了生成语言增强BEV地图，文章使用了一个预训练的大型视觉语言模型（LVLM），例如GPT-4，来为每个目标生成一个图像语言特征，这些特征可以直接用作LVLM中的上下文，用于回答关于目标和场景的问题。为了获得图像语言特征，文章首先将每个目标在BEV地图中的位置投影到图像中，提取出一个边框，然后使用一个预训练的卷积神经网络（CNN），对每个边框进行语义分割，即将边框中的每个像素分配到一个语义类别，例如椅子、桌子、门等。然后，文章将每个边框传递给LVLM，生成一个描述，这个描述包含了目标级别和场景级别的详细信息。最后，文章将这些生成的元数据以文本条目的形式添加到BEV地图中，构成语言增强BEV地图。

▲图3｜语言模型系统提示

▲图4｜裁剪描述

■3.3 回答用户查询

用户查询是一种用自然语言表达的问题，它可以涉及到目标的属性、位置、距离、方向、数量、意图、行为等方面。为了回答用户查询，文章使用了LVLM作为一个通用的问答系统，它可以根据语言增强BEV地图中的上下文，生成一个合适的回答。为了使LVLM能够准确地执行空间推理，文章还提供了对原空间运算符API的访问，例如计算两个目标之间的距离、角度等。每当用户查询涉及到空间推理时，文章会指示LVLM生成一个直接调用这些空间运算符之一的API调用，而不是直接尝试生成输出。为了使LVLM能够提供更多的解释性，文章还设计了一个特定的系统提示格式，它要求LVLM生成一个包含四个字段的JSON格式输出，这四个字段分别是：

●inferred-query，它重新表述用户查询，提供对该查询的内部解释；

●query achievable，它指示该查询是否可实现；

●spatial reasoning functions，它表示是否需要空间推理功能；

●explanation，它包含了LVLM如何处理所提供任务的简要说明。

在这里插入图片描述

▲图5｜Talk2BEV-Bench 制作流程图

▲图6｜空间运算符示例

本研究采集了Talk2BEV-Bench数据集，用于评估自动驾驶应用中的语言增强视觉语言模型（LVLM）。基准测试包括NuScenes数据集中的1000个场景和超过20,000个人工验证的问题-答案对。问题涵盖对象属性、实例计数、视觉推理、决策制定和空间推理。为场景生成了地面实况语言增强地图，并使用GPT-4和人工注释者筛选问题和答案。

在Talk2BEV-Bench数据集上，我们对Talk2BEV进行了定量评估。研究分析了不同LVLM的性能跨任务子集和不同类型问题的平均性能。MiniGPT-4在不同类型问题上实现了最佳平均性能。BEV中的错误对性能影响较小，表明随着更高性能的LVLM的发布，Talk2BEV的性能有望进一步提高。Talk2BEV使用不同LVLM构建的语言增强地图（BLIP-2、InstructBLIP-2、MiniGPT-4）和BEV变体（LSS和GT）在多项选择问题（MCQs）上的性能显示在表II中。空间操作符对系统性能的影响在表3中进行了评估，显示了集成空间操作符所实现的显著改进。此外，表4展示了不同对象类别的性能，突出了在车辆类别间性能的差异。

在这里插入图片描述

▲图7｜Talk2BEV 自由交流对话示例

▲表2｜多选题查询准确率

▲表3｜空间运算子影响

▲图8｜定性结果示例

▲图9｜空间运算符组合示例

▲表4｜按对象类别划分的评估

5.结论

本文介绍了Talk2BEV，一种用于自动驾驶系统中鸟瞰图映射的语言接口。借助最近在大规模语言模型（LLMs）和视觉语言模型（LVLMs）方面的进展，Talk2BEV能够满足多种自动驾驶（AD）任务，包括但不限于视觉和空间推理、预测不安全的交通互动和绘制补救措施。我们还介绍了Talk2BEV-Bench，一个用于评估后续在AD应用中使用LVLMs的工作的基准测试。在我们继续将大型预训练模型集成到AD堆栈中的同时，我们也强调了在这些模型部署到安全关键的AD堆栈之前，进行安全和对齐研究的必要性。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述
由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

玩转AI大模型

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Talk2BEV：大模型+自动驾驶，最热门的两大方向会碰撞出什么火花？

论文标题：========论文作者：本文介绍Talk2BEV，一个用于自动驾驶场景的鸟瞰图语言接口。通过融合最近的大规模语言模型(LLM)和视觉语言模型(LVLM)的进展，Talk2BEV能够完成广泛的自动驾驶任务，包括但不限于视觉推理、空间理解和预测不安全的交通互动。我们还提出了Talk2BEV-Bench基准测试，用于评估后续大规模视觉语言模型在自动驾驶应用方面的工作。©️【深蓝AI】编译为了实现无人参与的安全行驶，自动驾驶系统需要理解周围的视觉世界，以做出明智的决定。
复制链接

扫一扫