知识蒸馏让3D局部描述符飞跃!地平线新作从GeDi到高效实时估计!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章探讨了将知识蒸馏应用于3D局部描述符的有效性,旨在保持GeDi的效果同时显著提高其效率。通过训练一个高效的学生模型来回归GeDi描述符,解决了大规模点云数据集、旋转与尺度不变性的传递以及低内点比率等挑战。该方法通过显式强化查询和目标描述符之间的一致性,提升了对遮挡和部分观测的鲁棒性。实验结果表明,蒸馏后的模型显著减少了推理时间,同时保持了与其他方法竞争的性能,使得零-shot 6D姿态估计更接近实时可行,具有更广泛的实际应用潜力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:Distilling 3D distinctive local descriptors for 6D pose estimation

作者:Amir Hamza, Andrea Caraffa等

作者机构:Horizon Europe projects AI-PRISM等

论文链接:https://arxiv.org/pdf/2503.15106

2. 摘要

三维局部描述符对于编码几何表面特性至关重要,使其在各种点云理解任务中发挥着重要作用。在这些描述符中,GeDi 展现了强大的零样本 6D 姿态估计能力,但由于其推理过程昂贵,仍然在实际应用中不可行。我们能否在显著提高效率的同时保留 GeDi 的有效性?本文通过引入知识蒸馏框架来探索这个问题,该框架训练一个高效的学生模型,从 GeDi 教师模型中回归局部描述符。我们的主要贡献包括:一种高效的大规模训练过程,确保在计算和存储约束下,对遮挡和部分观察具有鲁棒性;以及一种新颖的损失公式,处理来自非独特教师描述符的弱监督。我们在五个 BOP 基准数据集上验证了我们的方法,并在保持与现有方法竞争力的表现的同时,显著减少了推理时间,推动零样本 6D 姿态估计向实时可行性迈进。项目官网:https://tev-fbk.github.io/dGeDi/

3. 效果展示

来自T-LESS(左)的查询对象上的教师(中)和学生(右)特征之间的比较。颜色表示PCA缩减的特征。学生特征GQ比教师特征FQ更平滑且噪声更小。

BOP基准测试(左)的定性结果,比较dGeDi(中)与GeDi(右)。为了更好的对比度,我们将根据预测姿态变换的对象的3D模型叠加在灰度输入图像上。关键挑战:遮挡(a、d、e)、对象对称性(B)、部分视图(c)、多个实例(d)。

4. 主要贡献

  • 我们提出了一种蒸馏方法,通过高效的神经网络学习局部3D描述符,用于零样本6D姿态估计,实现了在不妥协准确性的情况下,加速170倍。

  • 我们提出了一种数据扩展技术,使得能够在大规模合成数据上进行训练,同时显著减少了内存需求。

  • 我们设计了一种新颖的损失函数,通过加权回归误差防止在合成数据上过拟合,从而提高了泛化能力。

5. 基本原理是啥?

该研究的基本原理是通过知识蒸馏(Knowledge Distillation)技术提高3D局部描述符(如GeDi)的效率,同时保持其有效性。知识蒸馏是一种模型压缩技术,通过将一个复杂且高效的教师模型的知识传递给一个较简单且高效的学生模型,使学生模型在保持较低计算开销的同时能够达到接近教师模型的性能。推荐课程:彻底搞懂大模型数学基础剖析、原理与代码讲解

  1. 学生模型回归GeDi描述符:通过训练一个高效的学生模型来回归(即学习)GeDi描述符,学生模型能够在低计算复杂度下获取和使用GeDi描述符的知识。

  2. 一致性约束:在蒸馏过程中,显式地强制查询描述符与目标描述符之间的一致性。这种一致性约束能够增强学生模型对遮挡和部分观察的鲁棒性,帮助学生模型在面对复杂的3D场景时保持有效的描述能力。

  3. 处理低内点比率问题:在蒸馏过程中,处理了低内点比率(即在3D点云中,匹配点的数量较少)的挑战,使得模型能在实际应用中更稳健。

  4. 优化推理时间:通过蒸馏,学生模型不仅提高了计算效率,减少了推理时间,同时保持了与其他方法(例如GeDi)的竞争力性能。这对于需要实时计算的应用非常重要。

6. 实验结果

  1. 推理时间的显著减少:蒸馏后的学生模型在推理时间上取得了显著的减少。这意味着,通过应用知识蒸馏技术,学生模型能够在更短的时间内完成任务,具备了更高的效率。这对于实时应用,特别是6D姿态估计任务非常重要。

  2. 性能竞争力:尽管学生模型在推理时间上大幅度提升,但它仍保持与其他替代方法(如GeDi)的竞争性性能。这说明蒸馏方法不仅提高了效率,还没有明显牺牲模型的准确性和效果。

  3. 鲁棒性增强:通过显式地强制查询和目标描述符之间的一致性,学生模型在面对遮挡和部分观察等复杂情况时表现出了更强的鲁棒性。这使得模型在实际应用中能够更好地应对不完整的输入数据或环境干扰。

  4. 零-shot 6D姿态估计的实时可行性:实验结果使零-shot 6D姿态估计更接近实时应用的可行性,这意味着该方法在实践中的应用潜力大大提高,尤其是在需要快速响应的应用场景中。

7. 总结 & 未来工作

在本研究中,我们探讨了针对3D局部描述符的知识蒸馏方法,旨在保留GeDi的有效性,同时显著提高其效率。通过训练一个高效的学生模型来回归GeDi描述符,我们解决了若干关键挑战,例如对大规模点云数据集的需求、旋转和尺度不变性的传递,以及在蒸馏过程中处理低内点比率的问题。我们的方法明确地强制查询描述符与目标描述符之间的一致性,从而增强了对遮挡和部分观察的鲁棒性。实验结果表明,我们的蒸馏模型在保持与其他方法具有竞争力的性能的同时,显著减少了推理时间。这使得零-shot 6D姿态估计更接近实时可行性,为实际应用提供了更多的可能性。据我们所知,这是首次将知识蒸馏应用于3D局部描述符,为现实场景中的高效几何推理开辟了新的可能性。

局限性。我们的工作仅关注提高FreeZe管道中几何特征提取的效率。虽然这一改进提升了性能,但其他组件(如配准)仍然是计算瓶颈。

未来工作。我们计划探索加速这些剩余模块的策略,进一步优化整个6D姿态估计管道,使其适用于实时应用。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲ 长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值