Occ-LLM：浅谈基于大语言模型的自动驾驶3D占用预测（ICRA'25）-CSDN博客

>>直播和内容获取转到→自动驾驶之心知识星球

大语言模型（LLMs）在机器人和自动驾驶领域取得了长足的进步。本研究提出了第一个基于OCC的大语言模型（Occ-LLM），它代表了将LLM与重要表示相结合的开创性努力。为了有效地将占用率编码为LLM的输入，并解决与占用率相关的类别不平衡问题，我们提出了运动分离变分自编码器（MS-VAE）。这种创新方法利用先验知识在将动态目标输入到定制的变分自动编码器（VAE）之前将其与静态场景区分开来。这种分离增强了模型在有效重建静态场景的同时专注于动态轨迹的能力。Occ-LLM的有效性已在关键任务中得到验证，包括4D占用预测、自车规划和基于占用的场景问答。综合评估表明，Occ-LLM显著优于现有的最先进方法，在4D占用预测任务中，IoU和mIoU分别提升了约6%和4%。这些发现突显了Occ-LLM在重塑机器人和自动驾驶领域的当前范式方面的变革潜力。

为此我们邀请来了香港科技大学（广州）的在读博士生 - 许天硕为大家分享这篇ICRA 2025中稿的工作Occ-LLM。今晚七点半，锁定直播间！

论文链接：https://arxiv.org/abs/2502.06419

国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

【自动驾驶之心】技术交流群

自动驾驶之心是国内领先的技术交流平台，关注自动驾驶前沿技术与行业、职场成长等。我们成立了一系列的技术交流群，涉及：语义分割、车道线检测、2D/3D目标跟踪、2D/3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、在线地图、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等多个方向！

备注：学校/公司+方向+昵称（快速入群方式）