ECCV'24 | Any2Point：赋能多模态大型模型以实现高效的3D理解-CSDN博客

作者 | Yiwen Tang 编辑 | 自动驾驶之心

点击下方卡片，关注“自动驾驶之心”公众号

本文只做学术分享，如有侵权，联系删文

写在前面

最近，大型基础模型已成为备受瞩目的焦点，在广泛的场景中取得了卓越的性能。由于3D数据的稀缺性，人们已经做出了许多努力，将预训练的Transformer模型从视觉领域迁移到3D领域。然而，这种从2D到3D的方法仍然受到限制，因为可能会丢失空间几何信息，并且计算成本高昂。更重要的是，这些框架主要是为2D模型设计的，缺乏通用的任何到3D的范式。这里介绍了Any2Point，这是一种参数高效的方法，用于增强任何模态的大型模型（视觉、语言、音频）以进行3D理解。给定来自任何源模态的冻结Transformer模型，我们提出了一种3D到任何（1D或2D）的虚拟投影策略，该策略将输入的3D点与源模态内的原始1D或2D位置相关联。这种机制能够为每个3D标记分配一个与预训练模型配对的位置编码，从而避免了真实投影导致的3D几何信息丢失，并更好地激励Transformer利用1D/2D位置先验进行3D学习。然后，在每个Transformer block中，我们插入了一个任何到3D的引导适配器模块，以实现参数高效的微调。该适配器结合了来自源模态的先验空间知识，以指导3D标记的局部特征聚合，从而强制任何模态的Transformer进行语义适应。这里进行了广泛的实验，以展示方法的有效性和效率。代码已发布在https://github.com/Ivan-Tang-3D/Any2Point。

行业背景介绍

随着模型参数和训练数据量的不断增长，大型基础模型在多种领域和任务中获得了前所未有的关注。许多大型模型已经针对自然语言处理进行了预训练，包括BERT、T5以及GPT系列，以及用于视觉理解的模型，如DINOV2、MAE、以及ViT-22B。现有工作还探索了高效的微调技术，以将预训练的大型模型迁移到各种下游任务中，并持续取得了出色的性能。同时，3D视觉理解也是一个重要课题，其丰富的几何表示有助于许多应用的发展。然而，由于缺乏大规模的3D数据，与语言和二维视觉相比，3D基础模态的发展明显滞后。具体来说，高质量3D数据的获取和标注需要昂贵的资源和人力，而合成3D数据训练则缺乏分布多样性和实际应用。

因此，一些先前的工作已经将从其他模态（主要是2D视觉）预训练的模型迁移到3D模态，利用来自不同源的大量预训练知识。我们将现有的2D到3D的工作分为两组。1) 数据模态转换。这类方法涉及将3D点云投影到2D图像中，然后将其输入到2D预训练模型中。尽管在下游任务中取得了令人瞩目的性能，但模态转换过程不可避免地会导致3D数据中空间信息的丢失，从而阻碍了3D理解的全部潜力。2) 跨模态知识蒸馏。这些方法涉及将2D或视觉-语言模型的预训练知识转移到新训练的3D模型中。它们不仅需要在训练过程中前向传播2D和3D模型，而且还高度依赖于大规模的配对2D-3D数据。这导致了巨大的计算成本和数据工程工作，限制了它们的高效实现能力。除了上述问题外，更重要的是，当前的方法大多侧重于从2D视觉到3D点云的模型适应，而不是其他模态的通用方法。因此，我们提出一个问题：能否开发一个通用的任何到3D的范式，以增强任何模态的大型模型，从而实现高效且有效的点云理解？

为了解决这个问题，这里提出了Any2Point，一个统一的任何到3D的框架，它利用参数高效的微调（PEFT）将任何1D（语言）或2D（图像/音频）大型模型迁移到3D领域，如图1所示。与先前的方法不同，Any2Point避免了点云投影，从而减轻了3D信息的丢失，并直接对来自源模态的预训练模型进行微调，通过知识蒸馏节省资源。具体来说，给定一个任何模态的预训练Transformer，首先引入了一个3D到任何（1D或2D）的虚拟投影机制。该机制在输入3D点和它们虚拟投影的1D线或2D平面之间建立了位置映射。这使我们能够使用预训练大型模型源模态的原始位置嵌入来编码3D坐标。这样，我们不再需要进行真正的投影而丢失3D几何形状，同时更好地促进预训练的Transformer利用其原始的1D/2D位置先验来获取3D特征。然后，对于每个Transformer块，我们插入了一个用于PEFT的任何到3D引导适配器模块。该适配器利用1D/2D空间引导来聚合3D标记的局部语义，促进细粒度的特征交互。之后，根据不同的1D/2D先验对3D特征进行自适应集成，从而获得更优的3D表示。

在多个任务上的广泛实验表明，Any2Point框架在仅使用1.0%的可训练参数的情况下，相比当前的3D预训练模型实现了卓越的性能。使用预训练的CLIP文本编码器，Any2Point仅微调了0.8M参数，在ScanObjectNN数据集上达到了91.9%的准确率，比先前的最先进（SOTA）3D预训练模型高出+1.3%，在ModelNet40数据集上达到了94.3%的准确率。此外，Any2Point还通过使用包括2D视觉、语言和音频在内的不同模态的其他预训练模型，实现了相当的结果和效率，验证了提出的方法的鲁棒性。主要贡献如下：

• 为了实现一个通用的任何到3D的迁移框架，这里提出了Any2Point，它赋能了任何模态的预训练大型模型（如2D视觉、语言和音频）以实现高效的3D理解。

• 引入了两项技术，即3D到任何虚拟投影和任何到3D引导适配器，以有效解决当前方法中的问题，如3D几何信息丢失和过高的资源成本。

• Any2Point在多个任务上相比之前的SOTA 3D预训练模型实现了卓越的性能。值得注意的是，通过利用来自不同模态（如2D视觉、语言和音频）的预训练模型，这些具有竞争力的结果仍然保持一致。

Any2Point结构

1）方法概述

问题定义。给定来自任何模态（如视觉、语言和音频）的预训练Transformer，目标是以有效且高效的方式赋予其3D理解能力。这里并不打算在3D数据上进行全面微调，而是寻求一种参数高效的解决方案，同时保持源Transformer冻结，因为它们在有限的3D数据集上可能会因为大规模参数而导致高计算成本和过拟合问题。一般根据预训练数据的维度将源模型分为两类，分别称为1D Transformer和2D Transformer。1D Transformer专门用于处理序列数据，以语言模型为例，如RoBERTa、T5和CLIP的文本编码器。2D Transformer擅长处理2D空间数据，包括视觉模型，如DINOv2和DeiT，以及音频模型，如ImageBind音频编码器和SSAST。

模型流程。Any2Point的总体范式如图2所示，为了对输入的点云进行编码，丢弃了源Transformer中的原始嵌入模块（例如，1D语言模型中的分词器和2D视觉/音频模型中的卷积），并采用了一个3D小型网络来进行点云分词。在此基础上，编码后的3D分词首先被送入3D到任何模态的虚拟投影模块进行位置编码，然后送入冻结的1D/2D Transformer中，并配备了任何到3D的引导适配器。前者机制旨在为每个3D分词分配在源模态内的位置信息，而后者则是为了进行自适应的1D/2D引导下的3D表示学习。请注意，由于源Transformer保持冻结状态，因此只有初始分词网络和插入的适配器是可学习的，以实现参数高效的微调。

2）3D-to-any Virtual Projection

目前许多2D到3D的方法研究，都是将3D点云投影到多视图图像中，以满足预训练的2D模型的输入模态。这种降维过程可能会导致3D几何形状和深度测量的信息丢失，从而导致3D特征编码不足。此外，这些方法仅在2D图像中的大型模型上进行了验证，而没有考虑其他模态，如语言和音频。因此，我们提出了一种3D到任何模态的虚拟投影策略，该策略可以减轻几何损失，并且可以推广到任何1D/2D预训练模型，如图3所示。

3D空间中的分词。为了避免任何信息退化，这里直接在3D空间中对输入的点云进行分词，以便后续的1D/2D Transformer处理。具体来说，采用了一个包含小规模参数的3D小型网络，它是Point-PN的一个更轻量级的变体。分词过程包括使用最远点采样进行点数下采样，使用k最近邻（k-NN）算法进行局部聚合，以及使用可学习的线性层进行特征编码。之后，我们将原始点云转换为高维向量，获得N个3D分词作为，其中表示它们的3D坐标。

虚拟投影的动机。位置编码（PEs）是Transformer模型中位置信息的唯一指示器，因为内部的注意力机制是置换不变的，即它将以不同顺序处理的每个分词视为相同。因此，对于1D/2D Transformer来说，理解3D位置信息的一种直接方式是将新的3D PEs与3D分词结合起来。然而，源Transformer是在与它们在1D/2D空间中的原始PEs配对的情况下进行预训练的，这导致了冻结的1D/2D权重与新学习的3D PEs之间的语义差异。为了解决这个问题，将3D分词虚拟地投影到源模态中，并获得相应的1D/2D PEs，以便更好地与Transformer对齐。

3D到2D的虚拟投影。对于2D视觉和音频模态中的2D Transformer，将每个3D坐标虚拟地投影到M个视图中，推导出对应的2D坐标作为。这M个不同的视角能够在2D空间内提供多样的位置关系。这里采用了PointCLIP中的简单投影方法，且没有可学习的参数。重要的是，并没有真正生成投影后的多视图图像，而只是旨在获得虚拟的2D位置。然后，根据预训练Transformer中的原始2D PEs，为每个3D分词（例如Ti）分配M个不同的PEs，表示为。

3D到1D的虚拟投影。类似地，对于语言模态中的1D Transformer，我们将3D坐标虚拟地投影到不同的1D直线上。为了与2D模态中的数量保持一致，我们也选择了M条穿过点云中心的直线，这些直线具有M个均匀的旋转角度。

在1D/2D位置编码中编码3D位置。在获取对应的1D/2D位置编码后，我们将它们平均作为整体位置指示器，并将其与3D标记（如Ti）结合，通过以下方式：

3）Any-to-3D Guided Adapter

与现有的基于蒸馏的方法不同，我们直接将编码后的3D标记输入到预训练的1D/2D Transformer中。尽管3D标记的位置编码（PEs）已经与源模型对齐，但其他模态预训练得到的完全冻结的权重仍然受限于学习优越的3D表示。考虑到这一点，我们在每个Transformer块中引入了一个可学习的任意到3D引导适配器，如图4所示。适配器被插入到前馈网络（FFN）之后，并进一步融合了1D/2D先验知识，以实现参数高效的微调。

插入适配器的动机。源Transformer中的自注意力机制通常关注全局上下文中的长距离标记交互，这缺乏局部特征提取。然而，详细的空间几何形状对于3D形状的细粒度理解也是至关重要的。为了弥补这一差距，我们利用提出的适配器层来专门捕获局部邻域内的3D语义。此外，如上所述，由于源Transformer由1D/2D位置编码驱动，因此简单地将FPS（最远点采样）和k-NN（k最近邻）用于3D局部分组可能会导致位置不一致。因此，我们进一步设计了一种1D/2D引导聚合策略和一种自适应的任意到3D集成方法，以实现稳健的3D细粒度编码。

1D/2D引导下的局部聚合。在适配器中，首先根据1D/2D位置先验将3D标记分组到不同的局部邻域中，以更好地对齐所采用的1D/2D位置编码（PEs）。对于M个不同的视图/线，我们执行M个并发的局部聚合过程，以充分利用不同的投影视角。具体而言，对于2D Transformer，将每个虚拟投影图像（如第j个视图）划分为均匀的局部2D块，并根据它们的2D位置将处于同一块中的3D标记分组为一个邻域。对于1D Transformer，我们类似地将每个虚拟投影线（如第j个方向）划分为均匀的局部1D段，并根据它们的1D位置将不同段中的3D标记分组。在此基础上，我们为每个1D/2D邻域内的3D标记采用一个自注意力层，执行由1D/2D先验指导的局部特征交互。然后，我们采用池化和传播操作将局部聚合特征传播到同一邻域内的每个点。

自适应任意到3D集成。在并行局部聚合之后，我们获得M组3D标记，每组代表一个2D视图或1D线。由于不同的投影视角通常对3D表示具有不同的重要性，我们提出了一种自适应的任意到3D集成方法来聚合每个标记的M个特征。我们将此阶段具有M组特征的第i个3D标记表示为。为了正确指示每个视图/线的相对重要性，我们还采用了一个独立于M个2D引导局部聚合的3D特征转换分支。这个非参数分支仅包含3D空间中的局部分组、局部组内的特征平均池化以及传播操作，将适配器之前的3D标记转换为自适应集成的特征基线，表示为。然后，我们通过余弦相似度计算不同视图/线的相对权重，并最终聚合它们的特征以获得最终输出，如下所示：

通过集成策略，将M个具有动态权重的不同特征进行融合，使得适配器能够自适应地确定哪个视图/线更为关键，从而贡献出高质量的适配特征。

实验对比

1）实验设置

ScanObjectNN 数据集

ScanObjectNN 数据集由现实世界中的3D物体扫描组成，被分为15个不同的类别。我们选择了最具挑战性的PB-T50-RS划分来测试Any2Point框架的性能，且不使用投票策略。对于所有模型，都采用了AdamW优化器和CosineAnnealing调度器。初始学习率设置为5e-4，权重衰减因子为0.05。以32的bs对模型进行了300个轮次的微调。在数据增强方面，使用了随机缩放、平移和旋转。对于语言、2D视觉和音频模态，分别选择了CLIP文本编码器、DINO V2和ImageBind音频编码器作为预训练模型。对于这三个模型，Transformer架构是相同的：一个具有768个特征通道和1024个输入点数的12块编码器。在3D到任意模态的虚拟投影中，超参数M设置为6，且对于任意模态的Transformer使用相同的角度。为了匹配预训练模型中原始位置编码的形状，在语言模态下将3D点虚拟投影到长度为77、线大小为2的1D线段上；在2D视觉模态下投影到一个尺寸为512x512、块大小为26的2D平面上；在音频模态下则投影到一个尺寸为192x304、块大小为16的2D平面上。

ModelNet40 数据集

ModelNet40数据集包含40类合成的3D CAD模型，共有9,843个训练样本和2,468个测试样本。在ModelNet40的实验中，采用了与ScanObjectNN相同的微调设置和相同的预训练模型。在数据增强方面，使用了默认的随机缩放和平移。值得注意的是，在测试过程中，没有使用投票策略。

更多消融实验：

参考

[1] Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频