[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

最新推荐文章于 2024-07-11 17:11:57 发布

王知为

最新推荐文章于 2024-07-11 17:11:57 发布

阅读量1k

点赞数 18

分类专栏：机器视觉文章标签：论文阅读语言模型人工智能

本文链接：https://blog.csdn.net/oneway3124/article/details/135428851

版权

机器视觉专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., & Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074

最近，大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在指令跟随和2D图像理解方面表现出了潜力。虽然这些模型很强大，但它们尚未被开发成能够理解更具挑战性的3D物理场景，特别是在稀疏的户外LiDAR数据方面。在本文中，我们引入了LiDAR-LLM，该模型以原始LiDAR数据作为输入，并利用LLMs的卓越推理能力来全面理解户外3D场景。我们的LiDAR-LLM的核心见解是将3D户外场景认知重新构想为一个语言建模问题，涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言，由于缺乏3D LiDAR-文本配对数据，我们引入了一个三阶段的训练策略，并生成相关数据集，逐步将3D模态与LLMs的语言嵌入空间对齐。此外，我们设计了一个视图感知变压器（VAT）来连接3D编码器和LLM，有效地弥合了模态差距，并增强了LLM对视觉特征的空间定位理解。我们的实验表明，LiDAR-LLM具有理解关于3D场景的各种指令并进行复杂的空间推理的优越能力。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1，而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。网页链接：https://sites.google.com/view/lidar-llm

在这里插入图片描述
图1. LiDAR-LLM的特性。我们提出的LiDAR-LLM以3D LiDAR数据为输入，并将3D模态与语言嵌入空间对齐，充分利用LLM的卓越推理能力来理解户外3D场景。为了增强LiDAR特征的空间定位表示，我们在LiDAR编码器和LLM之间引入了一个View-Aware Transformer 视图感知变压器。同时，底部展示了从我们生成或使用的LiDAR-文本数据中衍生出的示例，涵盖了一系列与3D相关的任务。
在这里插入图片描述
图2 我们LiDAR-LLM框架的概述。初始列展示了我们的3D特征提取器，该提取器处理LiDAR点云输入以得到3D体素特征。随后，特征沿z轴展平，生成鸟瞰图（BEV）特征。视图感知变压器（VAT）接受BEV嵌入和可学习的查询作为输入，输出的查询作为软提示输入到冻结的LLM。在VAT中，我们引入了六个视图位置嵌入到BEV特征中，以及相应的查询，以增强空间定位表示的能力。该框架将LiDAR模态与语言嵌入空间对齐，使我们能够充分利用LLM来全面理解户外3D场景。
在这里插入图片描述
图3. 提示性问题和LiDAR-LLM预测的定性示例

王知为

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

为一个语言建模问题，涵盖了3D字幕生成、3D定位、3D问答等任务。具体而言，由于缺乏3D LiDAR-文本配对数据，我们引入了一个三阶段的训练策略，并生成相关数据集，逐步将3D模态与LLMs的语言嵌入空间对齐。LiDAR-LLM在3D字幕生成任务上取得了40.9的BLEU-1，而在3D定位任务上实现了63.1%的分类准确率和14.3%的BEV mIoU。我们提出的LiDAR-LLM以3D LiDAR数据为输入，并将3D模态与语言嵌入空间对齐，充分利用LLM的卓越推理能力来理解户外3D场景。
复制链接

扫一扫