无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了-CSDN博客

©作者 | 汤轶文

单位 | 上海科技大学、上海AI Lab

研究方向 | 3D视觉，大模型高效迁移

许多近期的研究致力于开发大型多模态模型（LMMs），使 LLMs 能够解读多模态信息，如 2D 图像（LLaVA）和 3D 点云（Point-LLM, PointLLM, ShapeLLM）。主流的 LMM 通常是依赖于强大但计算量大的多模态编码器（例如，2D 的 CLIP 和 3D 的 I2P-MAE）。

虽然这些预训练编码器提供了强大的多模态嵌入，富含预先存在的知识，但它们也带来了挑战，包括无法适应不同的点云分辨率，以及编码器提取的点云特征无法满足大语言模型的语义需求。

因此，作者首次全面研究了无编码器架构在 3D 大型多模态模型中应用的潜力，将 3D 编码器的功能直接整合到 LLM 本身。最终，他们展示了首个无编码器架构的 3D LMM—ENEL，其 7B 模型与当前最先进的 ShapeLLM-13B 相媲美，表明无编码器架构的巨大潜力。

论文标题：

Exploring the Potential of Encoder-free Architectures in 3D LMMs

作者单位：

上海人工智能实验室，西北工业大学，香港中文大学，清华大学

代码链接：

https://github.com/Ivan-Tang-3D/ENEL

论文链接：

https://arxiv.org/pdf/2502.09620v1

背景和动机

对于 3D LMMs，基于编码器的架构有以下潜在缺点：

1. 点云分辨率限制：3D 编码器通常在固定分辨率的点云数据上进行预训练，例如 PointLLM 的编码器 Point-BERT 使用 1,024 个点。然而，在推理过程中，输入点云的分辨率可能会有所不同（例如，8,192 个点或 512 个点）。

训练和推理分辨率之间的差异可能导致在提取 3D 嵌入时丢失空间信息，从而使 LLMs 理解变得困难。如（a）所示，PointLLM 在不同的点云分辨率输入下性能差异过大，而我们提出的 ENEL 显示出了一定的鲁棒性。

2. 嵌入语义差异：3D 编码器通常采用自监督方法（如掩码学习和对比学习）进行预训练，但 3D 编码器和大语言模型的训练分离导致训练目标可能与 LLMs 的特定语义需求不一致，无法捕捉到 LLMs 理解 3D 物体所需的最相关语义。

即使使用投影层将 3D 编码器与 LLMs 连接，简单的 MLP 也往往不足以进行完全的语义转换。如图（b）所示，ENEL 架构中 text token 更能关注到点云物体的关键部位，如椅脚和机翼。

具体方案

作者选择 PointLLM 作为基准模型进行探索，并使用 GPT-4 评分标准在 Objaverse 数据集上评估不同策略的表现。在无编码器结构的探索中他们提出以下两个问题：

1. 如何弥补 3D 编码器最初提取的高层次 3D 语义？在 3D LMMs 中，完全跳过编码器会导致难以捕捉 3D 点云的复杂空间结构。

2. 如何将归纳偏置整合到 LLM 中，以便更好地感知 3D 几何结构？传统的 3D 编码器通常将显式的归纳偏置嵌入到其架构中，以逐步捕捉多层次的 3D 几何。例如，像 Point-M2AE 这样的模型使用局部到全局的层次结构，这一概念在 2D 图像处理的卷积层中也很常见。

LLM 嵌入的语义编码

因为缺乏 3D 编码器导致点云语义信息的编码不足，极大地阻碍了 LLM 理解点云的结构细节。现有的大多数 3D 编码器使用自监督损失将点云的高层语义嵌入到 Transformer 中，主要分为四种类型：掩蔽建模损失（a）、重建损失（b）、对比损失（c）和知识蒸馏损失（d）。

基于 token embedding 模块和 LLM 可学习层，作者在预训练阶段实现并评估了这些损失对无编码器 3D LMM 的影响，并提出混合语义损失。

点云自监督学习损失通常有助于无编码器 3D LMM。自监督学习损失通过特定的任务设计对复杂的点云进行变换，促使 LLM 学习潜在的几何关系和高层次的语义信息。
在这些自监督学习损失中，掩蔽建模损失展示了最强的性能提升。掩蔽比率与训练优化难度直接相关，从 30% 增加到 60% 会导致性能下降。此外，显式重建点云 patch 不如掩蔽建模有效，但有助于 LLM 学习点云中的复杂模式。相比前两种损失，知识蒸馏损失的效果较差。最后，对比损失未能提取详细的语义信息，表现最差。
基于上述实验结果，作者提出混合语义损失（Hybrid Semantic Loss），他们对于掩蔽部分采用掩蔽建模，而对于可见部分，他们使用重建策略。这种方法不仅将高层次的语义嵌入 LLM 中，而且确保在整个点云学习过程中保持几何一致性。

层次几何聚合策略

在无编码器架构中，LLM 本身并没有明确的局部建模模块。自注意力机制主要用于建模全局交互。因此，基于提出的混合语义损失，作者在指令调优阶段探索如何使 LLM 主动感知 3D 局部细节，并补充学到的全局语义。为此，他们提出了层次几何聚合策略。

从 LLM 的第二层开始，输入的点云 token 基于它们对应的坐标使用最远点采样进行下采样，将 token 数量从 M 减少到 𝑀/2, 作为局部中心。然后，使用 k-NN 算法获得邻近点。针对邻近点他们采用门控自注意力机制进行组内交互，捕捉局部几何结构。最后，他们应用池化操作融合每个邻居的特征，结果特征长度为 M/2。总共进行 l-1 次几何聚合。

为了确保 LLM 充分提取局部信息，作者选择在聚合操作后经过多层 LLM 层进行进一步的语义建模，避免丢失细粒度的几何细节。

随后，他们进行 l 次几何传播。按照 PointNet++ 的方法，他们将聚合后的特征从局部中心点传播到它们周围的 k 个邻近点，经过 l 次后重新得到长度为 M 的点云特征。