Serge Belongie组和ETH联合 | ICLR 2025 Spotlight：「免费」多模态信息助力3D小样本分割！...-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球(点开有惊喜)，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

突破单模态局限，多模态促进3D小样本分割

当人形机器人能够辨识身边的一切，VR/AR设备呈现出定制化的虚拟世界，自动驾驶汽车实时捕捉路面状况，这一切都依赖于对3D场景的精确理解。然而，这种精准的3D理解往往需要大量详细标注的3D数据，极大推高了时间成本和资源消耗，而每当出现新场景或特定目标时，又不得不重复这一繁重过程。

Few-shot学习是一种有效的解决思路——通过极少量标注样本，让模型迅速掌握新类别，从而大幅改善了这一局限性。但当前研究都局限于单模态点云数据，忽略了多模态信息的潜在价值。对此，University of Copenhagen、ETH Zurich等团队填补了这一空白，提出了一个全新的多模态Few-shot 3D分割设定和创新方法：在无需额外标注成本的前提下，融合了文本，2D，3D信息，助力模型更好地适应到新类别。

ICLR 2025 Spotlight 论文

这篇文章已被ICLR 2025接收为Spotlight论文，，欢迎关注论文和代码，了解更多细节！

论文作者

论文：https://arxiv.org/pdf/2410.22489

代码：Multimodality-3D-Few-Shot

3D Few-shot分割结果示例：

3D Few-shot分割结果示例

1. 引言

3D场景理解在具身智能、VR/AR等领域至关重要，帮助设备准确感知和解读三维世界。然而，传统全监督模型虽在特定类别上表现出色，但其能力局限于预定义类别。每当需要识别新类别时，必须重新收集并标注大量3D数据以及重新训练模型，这一过程既耗时又昂贵，极大地制约了模型的应用广度。

3D Few-shot学习旨在利用极少量的示例样本以适应模型来有效的识别任意的全新类别，大大降低了新类适应的开销，使得传统的3D场景理解模型不再局限于训练集中有限的类别标签，对广泛的应用场景有重要的价值。

具体而言，对于Few-shot 3D点云语义分割（FS-PCS）任务，模型的输入包括少量支持样本（包含点云及对应新类标签）和查询点云。模型需要通过利用支持样本获得关于新类别的知识并应用于分割查询点云，预测出查询点云中关于新类别的标签。在模型训练和测试时使用的目标类别无重合，以保证测试时使用的类均为新类，未被模型在训练时见过。

目前，该领域涌现出的工作[1,2]都只利用点云单模态的输入，忽略了利用多模态信息的潜在的益处。对此，这篇文章提出一个全新的多模态Few-shot 3D分割设定，利用了文本和2D模态且没有引入额外的标注开销。在这一设定下，他们推出了创新模型——MultiModal Few-Shot SegNet (MM-FSS)。该模型通过充分整合多模态信息，有效提升小样本上新类别的学习与泛化能力，证明了利用普遍被忽略的多模态信息对于实现更好的小样本新类泛化的重要性，为未来研究开辟了全新方向。

2. Multimodal FS-PCS Setup

图1. 多模态FS-PCS 设定

为便于讨论，以下都将Few-shot 3D点云语义分割简称为FS-PCS。

传统的FS-PCS任务：模型的输入包含少量的支持点云以及对应的新类别的标注（support point cloud & support mask）。此外，输入还包括查询点云（query point cloud）。模型需借助support样本中关于新类别的知识，在query点云中完成新类别分割。

多模态FS-PCS任务：作者引入的多模态FS-PCS包括了除3D点云之外的两个额外模态：文本和2D。文本模态相应于支持样本中的目标类别/新类的名称。2D模态相应于2D图片，往往伴随3D场景采集同步获得。值得注意的是，2D模态仅用于模型预训练，不要求在meta-learning和测试时作为输入，保证了其Few-shot输入形式与传统FS-PCS对齐，仅需要相同的数据且无需额外标注。

3. 新的Multimodal FS-PCS模型MM-FSS

模型概览

图2. MM-FSS架构

关键模块解析

MM-FSS在Backbone后引入两个特征提取分支：

Intermodal Feature (IF) Head（跨模态特征头）：学习与2D视觉特征对齐的3D点云特征。
Unimodal Feature (UF) Head（单模态特征头）：提取3D点云本身的特征。

① 预训练阶段

MM-FSS 先进行跨模态对齐预训练，通过利用3D点云和2D图片数据对，使用2D视觉-语言模型（VLM）输出的2D特征监督IF head输出的3D特征，使得IF Head学习到与2D视觉-语言模型对齐的3D特征。这一阶段完成后：

Backbone和IF Head保持冻结，确保模型在Few-shot学习时能利用其预训练学到的Intermodal特征。这样，在Few-shot任务中无需额外的2D输入，仅依赖Intermodal特征即可获益于多模态信息。
此外，该特征也隐式对齐了VLM的文本特征，为后续阶段利用重要的文本引导奠定基础。

② Meta-learning阶段

在Few-shot训练（称为meta-learning）时，给定输入的support和query点云，MM-FSS分别将IF Head和UF Head输出的两套特征计算出对应的两套correlations（correlations表示每个query点和目标类别prototypes之间的特征相似度）。

两套correlations会通过Multimodal Correlation Fusion (MCF)进行融合，生成初始多模态correlations，包含了2D和3D的视觉信息。这个过程可以表示为：
其中和分别表示用IF Head和UF Head特征算得的correlations。为MCF输出的初始多模态correlations。
当前获得的多模态correlations融合了不同的视觉信息源，但文本模态中的语义信息尚未被利用，因此设计了Multimodal Semantic Fusion (MSF)模块，进一步利用文本模态特征作为语义引导，提升多模态correlations：
其中为文本模态的语义引导，为文本和视觉模态间的权重（会动态变化以考虑不同模态间变化的相对重要性），为多模态correlations。

③ 测试阶段

为缓解Few-shot模型对于训练类别的training bias（易被测试场景中存在的训练类别干扰，影响新类分割），MM-FSS在测试时引入Test-time Adaptive Cross-modal Calibration (TACC) ：利用跨模态的语义引导（由IF Head生成）适应性地修正预测结果，实现更好的泛化。

跨模态的语义引导未经meta-learning训练，有更少的training bias。为了有效的执行测试时修正，作者提出基于支持样本及其标签估算可靠性指标，用于自动调整修正程度（当该语义引导可靠性更高时，分配更大的修正权重，否则分配更小的权重）：

为模型的预测，为跨模态语义引导，γ为适应性指标。通过借助support point cloud以及可用的support mask可以如下计算γ作为修正可靠成都的估计：

4. 实验结果

表1. 实验结果

图3. MM-FSS的可视化对比结果

图4. MM-FSS的可视化消融实验结果

实验在两个标准的FS-PCS数据集上进行，证明了MM-FSS在各类few-shot任务中都实现了最佳性能。可视化也清楚表明了模型能够实现更优的新类分割，展示了更强的新类泛化能力。更多详细实验和分析内容请参见论文。

5. 总结

这项工作首次探索了融合多模态以提升FS-PCS任务的可能性。文中首先提出了全新的多模态FS-PCS 设定，无额外开销地融合文本和2D模态。在该设定下，作者提出首个多模态FS-PCS模型MM-FSS，显式的利用文本模态，隐式的利用2D模态，最大化其灵活性和各场景下的应用性。MM-FSS包含了MCF和MSF来有效的从视觉线索和语义信息双重角度高效聚合多模态知识，增强对新类概念的全面理解。此外，为了协调few-shot模型的training bias，作者设计了TACC技术，在测试时动态的修正预测。

综合来看，该工作展示了过往被普遍忽略的“免费”多模态信息对于小样本适应的重要性，为未来的研究提供了宝贵的新视野且开放了更多有趣的潜在方向。可参考的方向包括性能的提升 [2,3]，训练和推理效率的优化 [4]，更深入的模态信息利用等。

引用：

[1] Zhao, Na, et al. "Few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[2] An, Zhaochong, et al. "Rethinking few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.

[3] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.

[4] Wu, Xiaoyang, et al. "Point transformer v3: Simpler faster stronger." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜)，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。