点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种针对无纹理物体的多视角姿态估计和下一个最佳视角预测的完整框架。核心思想是将后验分布解耦为物体的3D平移和3D朝向,通过两步多视角优化来整合每帧测量值,解决RGB图像中的尺度和深度模糊问题,从而简化每帧的姿态估计。文章还通过物体对称性处理和基于最大混合模型的公式来应对测量不确定性,并利用Fisher信息近似预测物体姿态的熵,以确定下一个最佳视角。通过在真实世界的数据集(ROBI)和自建透明数据集上的实验,证明了方法的有效性和准确性,并与现有的最先进方法进行了对比,显示了显著的优势。未来的工作将探索如何联合估计物体和相机的姿态,并扩展该方法到没有CAD模型的物体。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames
作者:Jun Yang, Wenjie Xue等
作者机构:Toronto Institute for Aerospace Studies等
论文链接:https://arxiv.org/pdf/2503.03726
2. 摘要
从RGB图像估计无纹理物体的6D姿态是机器人学中的一个重要问题。由于外观模糊、旋转对称性和严重的遮挡,基于单视角的6D姿态估计器仍然无法处理广泛的物体,这推动了多视角姿态估计和下一最佳视角预测的研究,以解决这些局限性。在本工作中,我们提出了一种综合的主动感知框架,通过仅使用RGB图像来估计无纹理物体的6D姿态。我们的方法基于一个关键思想:将6D姿态估计分解为顺序的两步过程,可以大大提高准确性和效率。首先,我们估计每个物体的3D平移,从而解决RGB图像固有的尺度和深度模糊性。这些估计结果随后被用来简化确定3D方向的任务,我们通过标准化尺度模板匹配来实现这一目标。在此框架的基础上,我们进一步引入了一种主动感知策略,预测下一最佳相机视角以捕获RGB图像,从而有效减少物体姿态的不确定性并提高姿态精度。我们在公开的ROBI数据集和我们创建的透明物体数据集上评估了我们的方法。在使用相同相机视角进行评估时,我们的多视角姿态估计显著优于现有的先进方法。此外,通过利用我们的下一最佳视角策略,我们的方法能够以显著更少的视角实现高精度的物体姿态估计,优于基于启发式的策略。

3. 效果展示
T-ROBI数据集:(上方)对象“瓶”和(下方)对象“管件”。(a)单色图像。(b)原始深度贴图。(c)地面真实深度图。(d)对象的3D CAD模型。(e)地面实况6D对象姿势。

我们使用Blender渲染软件(Community 2018)和Bullet物理引擎(Coumans和Bai 2016)生成的合成数据的示例。(a)RGB图像。(b)物体的面具。(c)深度图。(d)地面实况6D对象姿势。从上到下:对象“D-Sub Connector”,来自ROBI数据集的“Zigzag”(Yang et al. 2021)和来自T-ROBI数据集的“Bottle”。

4. 主要贡献
我们提出了一种新颖的6D物体姿态估计框架,将问题分解为顺序的两步过程。这一过程解决了RGB图像中的深度模糊性,并大大提高了方向参数的估计精度。推荐课程:彻底搞懂大模型数学基础剖析、原理与代码讲解。
在我们提出的姿态估计器基础上,我们引入了一种信息论的主动视觉策略,通过选择下一最佳相机视角来优化物体姿态精度。
我们引入了一个多视角透明物体数据集,专门用于评估在拥挤和遮挡的物体情境中透明部件的6D姿态估计。
为了支持网络训练,我们创建了一个大规模合成数据集,其中包含来自ROBI数据集和我们透明物体数据集的所有部件。
5. 基本原理是啥?
后验分布解耦:该方法将物体的三维姿态(包括平移和方向)分解为两个独立的部分:3D平移和3D方向(即物体的姿态)。通过这种方式,可以分别处理这两个部分,简化估计过程。
多视角优化:该方法将每个视角的测量结果与其他视角的数据结合,使用两步优化的方式来估计物体的姿态。第一步解决RGB图像中的尺度和深度模糊问题,第二步简化了每帧方向的估计。
方向优化与对称性处理:为了更准确地估计物体的方向,该方法专门设计了方向优化模块,处理物体的对称性问题,并通过最大混合模型(maxmixture-based formulation)来减轻测量的不确定性。
下一个最佳视角预测:该方法通过使用Fisher信息近似来预测物体姿态的不确定性(即物体姿态的熵),从而选择下一个最有利的视角进行测量。这可以提高物体姿态估计的准确性。
总的来说,这种方法通过解耦物体的平移和方向估计、结合多视角优化和主动感知策略,能够在不同视角下更准确地估计无纹理物体的姿态,并预测下一个最佳视角进行测量,从而提高物体姿态的估计精度。





6. 实验结果
效果对比:实验结果表明,所提的方法相较于现有的最先进基准方法(state-of-the-art baselines),在物体姿态估计的准确性上表现出色。通过多视角优化和方向优化模块,显著提高了估计结果的精度。
实际数据集验证:在真实世界的ROBI数据集上的测试表明,该方法能够在没有纹理信息的情况下,稳定且准确地进行物体姿态估计。这也证明了该方法在现实环境中的适用性。
透明物体数据集:在透明数据集的测试中,虽然透明物体的纹理信息较少,传统方法可能会遇到困难,但通过结合物体对称性处理和主动感知策略,该方法依然能够提供高精度的姿态估计结果。
下一个最佳视角选择:通过预测物体姿态的熵并选择下一个最佳视角,实验结果证明,这一策略能够有效提高物体姿态的准确性。新的RGB测量从相应视角采集后,进一步优化了姿态估计。
7. 总结 & 未来工作
在本研究中,我们提出了一个完整的框架,用于无纹理物体的多视角姿态估计和下一个最佳视角预测。对于我们的多视角物体姿态估计方法,核心思想是将后验分布解耦为物体的3D平移和3D方向,并通过两步多视角优化公式将每帧的测量数据整合起来。这个过程首先解决了RGB图像中的尺度和深度模糊问题,极大地简化了每帧的方向估计问题。此外,我们的方向优化模块明确处理了物体的对称性,并通过基于最大混合模型的公式对抗测量不确定性。为了找到下一个最佳视角,我们通过Fisher信息近似来预测物体姿态的熵。然后,从对应的视角收集新的RGB测量数据,以提高物体姿态的准确性。通过在实际的ROBI数据集和我们的透明数据集上的实验,证明了与现有最先进方法相比,本方法的有效性和准确性。作为未来的工作,我们计划研究如何联合估计物体姿态和相机姿态,并探索如何将我们的主动感知方法扩展到无CAD模型的物体。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型:www.3dcver.com
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~