点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:One2Any: One-Reference 6D Pose Estimation for Any Object
作者:Mengya Liu, Siyuan Li, Ajad Chhatkuli, Prune Truong, Luc Van Gool, Federico Tombari
机构:ETH Zurich、INSAIT, Sofia University “St. Kliment Ohridski” 、Google、 TUM
原文链接:https://arxiv.org/abs/2505.04109
代码链接:https://github.com/lmy1001/One2Any.git
1. 导读
由于依赖于完整的3D模型、多视图图像或限于特定对象类别的训练,6D对象姿态估计对于许多应用来说仍然具有挑战性。这些要求使得对于既没有3D模型也没有多视图图像可用的新颖物体的概括变得困难。为了解决这个问题,我们提出了一种新的方法One2Any,该方法仅使用单参考单查询RGB-D图像来估计相对6自由度(DOF)物体姿态,而不需要其3D模型、多视图数据或类别约束的先验知识。我们将物体姿态估计视为一个编码-解码过程,首先,我们获得一个综合的参考物体姿态嵌入(ROPE ),它从单个参考视图中编码物体的形状、方向和纹理。使用这种嵌入,基于U-Net的姿态解码模块为新视图产生参考对象坐标(ROC ),从而实现快速和准确的姿态估计。这个简单的编码解码框架允许我们的模型在任何成对姿态数据上进行训练,从而实现大规模训练并展示出巨大的可扩展性。在多个基准数据集上的实验表明,我们的模型可以很好地推广到新的对象,实现了最先进的准确性和鲁棒性,甚至可以与需要多视图或CAD输入的方法相媲美,而计算量却很小。
2. 效果展示
给定一个单一的RGB-D图像作为不可见物体的参考,我们的方法估计该物体在给定查询图像中相对于参考的位置。该方法首先预测参考对象姿态嵌入(ROPE),该嵌入编码对象的纹理、形状和姿态先验在推理过程中,每个查询 RGB 图像都通过解码器进行处理,以预测参考对象坐标(ROC)映射并估计与参考图像的相对姿态。这种方法有效地处理了较大的观点变化。

3. 引言
6D物体姿态估计是计算机视觉领域的一项重要任务,因其广泛适用于机器人技术、混合现实和通用场景理解等领域。然而,现有方法仍受限于泛化能力、速度瓶颈以及严格的输入要求。毋庸置疑,在保持良好性能的同时,这些约束条件难以同时满足。
现有6D物体姿态估计方法可根据输入要求进行分类。基于模型的方法在推理阶段使用完整的参考物体3D模型来支持姿态估计,而多视图方法则采用大量(8-200张)间接编码物体3D形状的参考图像。尽管这些方法有效,但在缺乏多视角或高质量3D模型的情况下(如新物体/未见物体场景),其实用性会大打折扣。
相比之下,直接绝对姿态回归方法通过监督学习绕过了对大规模参考数据的需求,但通常缺乏对未见物体的泛化能力。我们的目标是在仅给定单个参考RGB-D视图的情况下估计任意物体的姿态,这对当前方法构成了极具挑战性的设定。多视图方法通常遵循"重建-比对"的流程,涉及复杂的搜索、优化或光束法平差步骤。当仅有稀疏视角可用时,这类方法的性能会显著下降,导致重建效果差且姿态估计不准确。而基于2D-2D对应的单目方法通过计算跨视角的关键点对应关系进行姿态估计,但在处理无纹理表面、遮挡或大视角差异时往往表现不佳。推荐课程:机械臂6D位姿估计抓取从入门到精通。

为突破稀疏视角场景下显式重建和2D匹配的局限性,我们提出了一种基于参考编码的条件化学习方法。近期在3D生成领域的进展表明,在大规模数据集上训练的潜在扩散模型可通过姿态、深度等附加信息进行条件化控制以实现图像/3D生成。基于这一洞察,我们提出了一种基于潜在扩散架构的方法,通过学习鲁棒且全面的条件化表示,从单个参考视图中捕获纹理、形状和方向先验信息以进行姿态估计。
4. 主要贡献
本文将新物体姿态估计框架化为条件化姿态生成问题:给定未见物体的新视角图像,我们在条件化参考姿态空间中生成该物体的姿态。我们的模型包含两个分支:实例编码分支将给定的RGB-D参考图像编码为参考物体姿态嵌入(Reference Object Pose Embedding, ROPE),物体姿态解码分支(Object Pose Decoding, OPD)则结合查询图像和ROPE解码任意视角下的物体姿态。
我们未直接估计旋转和平移参数,而是引入了一种适用于架构设计的中间稠密表示。受标准化物体坐标空间(Normalized Object Coordinate Space, NOCS)的启发(该空间使用规范物体姿态定义类别级物体的2D-3D对应关系),我们通过定义参考物体坐标系(Reference Object Coordinate, ROC)放宽了规范坐标系要求,该坐标系在参考相机坐标系中呈现归一化的物体坐标。
我们的模型基于预训练的潜在扩散模型,通过微调使其能够基于参考视图和ROPE生成条件化的ROC。结合生成的ROC和目标物体深度信息,我们通过Kabsch-Umeyama算法高效计算物体姿态。为加速推理过程,我们绕过扩散过程,以前馈方式运行U-Net网络,使方法达到近实时速度,显著优于现有方法。
在多个物体姿态估计基准测试中的大量实验表明,即使仅使用单个视图,我们的方法也能与依赖多图像或CAD模型的方法相媲美,在速度、精度和鲁棒性方面均达到业界领先水平。
5. 方法
该网络以参考RGB-D图像为输入,通过参考物体编码器(Reference Object Encoder, ROE)学习参考物体姿态嵌入(ROPE)。该嵌入随后与查询特征图融合,查询特征图通过预训练的VQVAE模型从查询RGB图像中提取。我们采用U-Net架构,通过交叉注意力层有效融合ROPE与查询特征。解码器被训练用于预测ROC图,最终通过Umeyama算法计算最终姿态估计结果。

ROC表示给出一个参考RGB-D图像和一个查询RGB-D图像。ROC空间最初是由参考帧定义的,使用摄像机内部K和尺度矩阵S到一个归一化的空间。查询图像随后使用相对姿态[Rt]和比例矩阵S对齐到该空间。ROC映射是通过将ROC空间中的点映射到它们对应的2D像素位置并将点位置编码为RGB值来生成的。

6. 实验结果


7. 总结 & 未来工作
在这项工作中,我们引入了 One2Any,这是一种只需单个RGB-D参考视图的6D物体姿态估计的新方法。作为一个条件-tional生成问题,我们的方法利用参考对象的姿势嵌入(ROPE)和参考对象坐标(ROC),以消除对CAD模型或多视图图像的依赖。通过我们改进的潜扩散架构,我们在基准数据集上实现了最先进的准确性和速度,有效地推广到新对象和具有挑战性的场景。我们的方法特别擅长处理通常对基于对应的方法构成挑战的大视角变化和遮挡。此外,我们实现了接近实时的性能,同时保持了高精度。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。


3D视觉硬件

3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~