ICLR‘25 | 从视频到现实:如何让机器人模仿互联网教学视频中的物体操作?

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一种新的6D物体对齐方法,用于处理现实场景中的图像和视频,特别是在没有精确3D网格的情况下。该方法通过从大型CAD网格数据库中检索与输入查询图像相似的网格,并将其对齐到查询图像,成功地克服了视觉差异问题。作者在多个数据集上展示了该方法的优越性能,超越了现有的最先进6D姿态估计方法,并在“野外”教学视频中展示了其应用。通过定量和定性实验,证明了该方法在机器人操作、物体追踪和模仿等任务中的有效性,尤其在从互联网视频中学习物体操作技能方面具有潜力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:6D OBJECT POSE TRACKING IN INTERNET VIDEOS FOR ROBOTIC MANIPULATION

作者:Georgy Ponimatkin, Martin C´ıfka等

作者机构:Czech Institute of Informatics, Robotics and Cybernetics, Czech Technical University in Prague等

论文链接:https://arxiv.org/pdf/2503.10307

2. 摘要

我们旨在从互联网教学视频中提取一个操控物体的时间一致性的6D姿态轨迹。由于受限的拍摄条件、微妙但动态的物体运动以及操控物体的具体网格未知,这对于当前的6D姿态估计方法来说是一个具有挑战性的任务。为了解决这些挑战,我们提出了以下贡献。首先,我们开发了一种新方法,能够在没有物体先验知识的情况下估计输入图像中任何物体的6D姿态。该方法包括:(i) 从大规模模型数据库中检索与图像中物体相似的CAD模型,(ii) 将检索到的CAD模型与输入图像进行6D对齐,(iii) 确定物体在场景中的绝对尺度。其次,我们通过仔细跟踪视频帧中的检测物体,提取了来自互联网视频的平滑6D物体轨迹。然后,我们通过轨迹优化将提取的物体轨迹重新定向到机器人操作器的配置空间。第三,我们在YCB-V和HOPE-Video数据集上,以及一个新数据集(由手动标注近似6D物体轨迹的教学视频)上,彻底评估并消融了我们的6D姿态估计方法。我们展示了在现有最先进的RGB 6D姿态估计方法上显著的改进。最后,我们展示了从互联网视频中估计的6D物体运动可以被转移到一个7轴机器人操作器上,既可以在虚拟模拟器中,也可以在实际环境中。我们还成功地将我们的方法应用于EPIC-KITCHENS数据集中拍摄的自中心视频,展示了其在具身人工智能应用中的潜力。

3. 效果展示

我们的方法在YCB-V数据集上的定性结果。在YCB-V数据集上,我们的方法能够检测不属于数据集的对象(例如图像F中的键盘和图像C中的椅子),这突出了我们的方法不限于地面真实网格的好处。

我们的方法在HOPE-Video数据集上的定性结果。在HOPE-Video数据集上,我们的方法重建了具有多个对象的复杂场景,同时考虑部分遮挡。我们的方法在EPIC-Kitterfly数据集上的定性结果。我们的方法是能够检测和对齐对象从自我中心的角度来看。更多示例见图8和图9。

4. 主要贡献

  • 首先,我们开发了一种方法,能够在没有物体先验知识的情况下估计图像中任何物体的6D姿态。该方法通过以下步骤实现:(i)从大规模数据库中检索与图像中物体相似的CAD模型,(ii)将检索到的CAD模型与物体对齐,(iii)根据场景确定物体的尺度。

  • 其次,我们通过仔细跟踪视频帧中的检测物体,从互联网视频中提取平滑的6D物体轨迹。然后,通过轨迹优化将提取的6D物体轨迹重新定向到机器人操控器的配置空间。

  • 第三,我们在YCB-V和HOPE-Video数据集以及一个新数据集(手动标注有近似6D物体轨迹的教学视频)上,全面评估并消融了我们的6D姿态估计方法。我们展示了在现有最先进的RGB 6D姿态估计方法上取得了显著的改进。

  • 最后,我们展示了从互联网视频中估计的6D物体运动可以被转移到一个7轴机器人操控器上,既可以在虚拟模拟器中,也可以在实际的机器人设置中进行应用。此外,我们还将我们的方法应用于EPIC-KITCHENS数据集中拍摄的自中心视频,展示了该方法在各种具身AI应用中的潜力。

5. 基本原理是啥?

该方法的基本原理是通过从大规模的CAD网格数据库中检索与输入查询图像相似的3D物体网格,并将这些网格与图像进行对齐。尽管图像中的物体与查询图像中所表示的物体在视觉上可能存在差异(例如,纹理不同、角度不同等),该方法依然能够成功地将检索到的网格与输入图像中的物体进行对齐。

  1. 网格检索:通过从大型数据库中检索与查询图像相似的3D物体网格,并解决野外场景中没有精确网格的挑战。

  2. 6D姿态估计:对齐图像中的物体与检索到的3D网格,从而估计物体的6D姿态(即位置和方向)。

  3. 视觉一致性:即使物体纹理或外观不同,依然能够成功地对齐物体的3D网格。

  4. 应用场景:这种方法可用于从互联网的教学视频中学习物体操作技能,通过机器人模仿这些动作。

6. 实验结果

1 标准数据集上的6D姿态估计评估

  1. 数据集与评估指标

  • 数据集:该方法在YCB-V(Xiang et al., 2018)和HOPE-Video(Lin et al., 2021)数据集上进行评估,这些数据集包含了部分遮挡的物体,并模拟了真实世界的互联网视频场景。

  • 评估指标:采用BOP协议,使用标准的Chamfer距离(CH)作为评估指标,同时还报告了基于投影的指标(投影Chamfer距离pCH和补集重叠度CoU),以及所有指标的平均召回率(AR)。对于提议生成方法,报告了平均精度(AP)。

  • 与最先进方法的比较

    • 本方法与RGB-only的最先进方法(如GigaPose、FoundPose和MegaPose)进行了比较,结果表明本方法在YCB-V和HOPE-Video数据集上显著优于这些方法,尤其是在没有域内训练或微调的情况下。

    • 这表明,像MegaPose、GigaPose和FoundPose这些为已知网格设计的6D姿态估计方法,不能很好地适应未知或不精确网格的场景,因此不适合实际应用场景。

    2 关键组件的消融实验

    1. CAD模型检索

    • 在YCB-V数据集上,本方法与OpenShape基线进行了比较,结果表明在没有精确网格的情况下,本方法的姿态估计质量比OpenShape高约44%。

    • 本方法在已知精确网格和物体尺度的情况下表现最佳,进一步展示了CAD模型检索的上限。

    • 消融实验还表明,前景特征平均方法(FFA)在性能上明显优于每视角平均的CLS token描述符。

  • 尺度估计

  • 3 6D姿态估计的定性结果

    1. YCB-V数据集上的定性结果

    • 通过定性展示,本方法成功地从查询图像中检索出与图像中物体相似的CAD模型,并能够在视觉差异较大的情况下进行对齐。例如,在图3-A中的钻头实例中,本方法检索到了一种与查询图像中钻头纹理不同的钻头,但成功地与查询图像对齐。

    • 另一个成功示例是在图4-A中,本方法能够将不同纹理的网格与输入图像中的物体对齐。

  • 失败模式

    • 本方法的主要失败模式有两种:(i) 检索不到相似的网格;(ii) 无法估计正确的尺度。例如,在图4-C中,方法检索到的物体与查询物体不匹配,导致姿态估计失败;在图4-E中,不正确的尺度估计导致场景中的遮挡错误。

    4 视频结果与应用

    1. 定量评估

    • 在32个“野外”视频中进行的定量评估表明,本方法在6947帧的跟踪中表现优异,超越了现有的最先进方法。该评估通过手动标注视频中人类互动物体的6D姿态来进行。

  • 定性评估

    • 在互联网教学视频和EPIC-KITCHENS数据集中的视频上进行的定性评估展示了本方法在实际应用中的表现,包括多物体跟踪和6D物体轨迹的提取。

  • 应用:模仿互联网视频中的物体运动

    • 本方法的6D姿态估计结果可以用于优化机器人轨迹,例如,Franka Emika Panda机器人成功地模仿了在互联网教学视频中展示的物体操作动作,如摇晃水壶再倒水。

    7. 总结 & 未来工作

    我们提出了一种用于野外图像和视频的类别级6D物体对齐方法。我们展示了,在给定输入查询图像的情况下,可以从大规模CAD网格数据库中检索到相似的网格,并且尽管视觉上存在差异,仍然可以将其与查询图像对齐。我们在两个BOP数据集和一个新的“野外”教学视频数据集上定量证明了我们的方法优于现有的6D姿态估计基准方法。从定性角度来看,我们展示了该方法在通过教学视频引导机器人操作中的应用,朝着从互联网的教学视频中大规模学习物体操作技能迈出了重要一步。

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉交流群,成立啦!

    目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

    工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

    SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

    自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

    三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

    无人机:四旋翼建模、无人机飞控等

    2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

    最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

    除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

    添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

    ▲长按扫码添加助理:cv3d001
    3D视觉工坊知识星球

    「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

    ▲长按扫码加入星球
    3D视觉工坊官网:www.3dcver.com

    卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

    ▲ 长按扫码学习3D视觉精品课程

    3D视觉模组选型:www.3dcver.com

    —  —

    点这里👇关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    3D视觉科技前沿进展日日相见 ~ 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值