IEEE'24 | 实时跟踪革命!推理仅需36毫秒!重塑AR装配体验!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

cbe3c269775262282fc7264b333d0d00.jpeg

0.这篇文章干了啥?

这篇文章主要介绍了一种名为GBOT的实时图形跟踪方法,旨在辅助增强现实(AR)中的装配任务。该方法利用先前装配姿态的先验知识,结合了6D姿态估计和物体跟踪技术,通过运动学链接跟踪多个装配部件。作者还提出了一个名为GBOT的数据集,用于评估他们的方法。实验结果表明,该方法在各种条件下都表现良好,特别是在具有不同光照、手部遮挡和快速移动等情况下。文章的主要贡献包括提出了一种新的跟踪方法,建立了一个可用于评估的数据集,并展示了该方法在AR辅助装配任务中的潜力。此外,文章还讨论了未来的研究方向,包括对具有纹理、透明或反射特性的物体进行跟踪,以及改进姿态估计算法。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:GBOT: Graph-Based 3D Object Tracking for Augmented Reality-Assisted Assembly Guidance

作者:Shiyu Li,Hannah Schieber等

作者机构:慕尼黑工业大学等

论文链接:https://arxiv.org/pdf/2402.07677.pdf

代码链接:https://github.com/roth-hex-lab/gbot

2. 摘要

可装配部件的指导是增强现实的一个有前景的领域。增强现实装配指导需要目标物体的6D对象姿态实时获取。特别是在时间关键的医疗或工业环境中,连续且无需标记的追踪单个部件对于将指导说明叠加在目标物体部件上或旁边至关重要。在这方面,用户手部或其他物体的遮挡以及不同装配状态的复杂性使得无需标记的多物体追踪变得复杂且难以实现稳健和实时。为了解决这个问题,我们提出了基于图形的物体跟踪(GBOT),这是一种新颖的基于图形的单视图RGB-D跟踪方法。通过6D姿态估计初始化实时无需标记的多物体跟踪,并更新基于图形的装配姿态。通过我们的新颖多状态装配图实现对各种装配状态的跟踪。我们利用各个装配部件的相对姿态来更新多状态装配图。在这个图中连接各个对象可以在装配过程中实现更稳健的对象跟踪。作为未来工作的基准,我们还提供了用于3D打印的装配资产。在合成数据上的定量实验和在真实测试数据上的进一步定性研究显示,GBOT能够胜过现有的工作,从而实现了上下文感知的增强现实装配指导。

770cebe2e60e101309d88c017ec91cb3.png

3. 效果展示

GBOT数据集包含的所有五种装配资产的概述。

308c9b24f083879b92532112428d73cf.png

我们的合成训练图像。生成了带有3D打印零件的聚类场景,用于装配零件。为了增加域随机性,我们添加了来自T-less 数据集的对象,变化的光照条件和随机化的背景。

bcd159670518a8e101dfd41448625668.png

不同光照条件、运动模糊和遮挡的合成和真实场景:我们进行消融研究,考虑到不同的光照条件、运动模糊和手部遮挡作为真实数据的限制。

3116b4798300c5cdd46b79f50f07ddc3.png

GBOT合成数据集上的定性评估。我们在三个装配工具Nano Chuck by Prima、Hand-Screw Clamp和Liftpod上进行了比较(从上到下)。跟踪的对象被单独着色。随着装配状态的不断发展,GBOT比现有技术的跟踪器更加注重跟踪。

7c94f11e93d282e6275b2d0bfd0e5551.png

在真实场景中对GBOT与YOLOv8Pose、SRT3D、ICG、ICG+SRT3D和GBOT + re-init进行定性评估。我们将装配工具Hobby Corner Clamp与不同方法进行了比较。我们显示了以不同颜色跟踪的对象。YOLOv8Pose无法检测和估计被遮挡的装配对象的姿态,而跟踪算法仍然能够更新对象姿态。随着装配状态的不断发展,GBOT比现有技术的跟踪器SRT3D、ICG和ICG+SRT3D更加注重跟踪。

c76a6ade9263a5ed9aecc009eccd6333.png

在真实杂乱场景中的评估:我们随机放置了GBOT装配资产以及一些干扰物体,以测试杂乱场景的影响。我们的训练数据通过域随机化有助于在杂乱的场景中检测物体。

3f2b501d4b0af974a788de77dd033fe3.png

在合成场景上进行装配感知训练,并在真实场景上进行评估:我们的训练数据通过装配数据有助于在装配过程中克服遮挡。

f0e116bb7b515e1757993a8f0754442e.png

4. 主要贡献

  • 基于实时多物体装配图跟踪,由6D姿态估计驱动,用于多状态装配,包括装配状态识别。

  • 一个合成数据集和未标记的真实测试数据,用于公开可用的和可3D打印的装配资产,作为AR装配指导的定量和定性基准。

5. 基本原理是啥?

  • 目标跟踪初始化:首先,利用先进的对象检测器YOLOv8进行6自由度(6D)对象姿态估计,将其设计为单阶段方法。在检测到对象的边界框之外,还扩展了检测输出以获取对象姿态估计所需的关键点。关键点直接检测在对象表面上,而不是在3D边界框的角上。这样做的目的是更准确地捕获对象的表面特征。检测到关键点和边界框后,将它们输入到RANSAC PnP(透视nP)中,以恢复对象的姿态。

  • 关键点选择:为了在每个对象上定义表面关键点,采用了最远点采样方法,该方法在对象表面上初始化一个关键点集,并添加总共N个点。鉴于对象尺寸的变化,经济性和可见性之间的平衡,使用17个关键点作为经济取舍。

  • 6D姿态预测:PnP是解决给定对象模型的N个3D点和相应预测2D关键点的6D对象姿态的问题。通过RANSAC PnP处理对象检测器的输出,以恢复6D对象姿态。训练网络时,采用YOLOv8提出的关键点回归损失。

  • 基于图的对象跟踪:利用6D对象姿态估计来不断检测单个对象,但这对计算能力要求很高,限制了实时性能。对象跟踪提供了实时姿态信息,但需要姿态初始化。因此,使用6D姿态估计进行对象跟踪初始化。基于图的对象跟踪是基于时间新帧中对象姿态的更新。大多数跟踪算法定义了基于能量函数或姿态变化向量的概率模型。我们使用基于能量函数的方法,该方法被定义为负对数概率,遵循Stoiber等人的方法。我们的跟踪方法扩展了他们的基于图的方法,该方法使用不同对象之间的运动学链接来简化跟踪过程。与他们的工作不同,我们根据先验已知的装配图实时更新这些链接。

  • 确定装配状态:为了在装配过程中切换不同的装配状态,我们利用了两个装配部件之间的相对姿态的知识。我们通过测量连接部件之间的相对姿态来获得装配状态。如果两个部件之间的相对姿态(与地面真实姿态相比)小于跟踪误差,则假定特定的装配状态已完成。我们计算翻译和旋转的误差,并将其用作切换条件。

  • GBOT数据集:为了训练和评估跟踪器的性能,使用了合成数据生成器。该数据集包含五个3D打印装配物体,用于测试算法。通过域随机化,例如变化的背景纹理、不同的光照条件和干扰物体,生成了合成数据。为了进行质量评估,还记录了真实场景的图像,但由于注释的限制,这些图像不包含地面真实姿态。

d7461bd1ca8912a92b6da723de9c44dc.png 854ef08e074b705940545f827efa122d.png

6. 实验结果

  • 评估指标:使用平均距离误差(ADD)和平均距离误差-S(ADD-S)作为评估6D姿态准确性的主要指标。还定义了平均平移误差和平均旋转误差作为补充指标。

  • 实现细节:算法基于YOLOv8扩展,使用PyTorch实现6D姿态估计,并使用NVIDIA TensorRT加速。跟踪、推断引擎和RESTful API使用C++ 17实现。

  • 评估数据集:使用GBOT数据集进行评估,包含四种条件(正常、动态光照、运动模糊、手部遮挡)。与YOLOv8Pose、最先进的跟踪方法和GBOT进行比较。

  • 实验结果:GBOT在不同条件下的表现优于YOLOv8Pose和其他跟踪方法。对于包含更多部件的装配资产,GBOT的表现更加优越。

  • 定量评估:在不同条件下的定量评估结果显示,GBOT在跟踪精度上优于其他方法。特别是对于手部遮挡等情况,GBOT表现出更好的鲁棒性。

  • 定性评估:通过视觉化结果,展示了GBOT在跟踪装配资产时的鲁棒性和准确性。GBOT能够跟踪较小的部件,并在强烈手部遮挡时表现良好。

  • 实时性:GBOT能够在实时应用中部署,保证其在增强现实(AR)应用中的使用。通过在Microsoft Hololens 2上展示了一个AR应用程序装配指导的示例来证明。

e5a985463a0d87e0d1d560da6e735828.png 301cbd6acdeb874fb73cd1f8804c5ad3.png 65044bc6666989f1a44563a434eccac0.png a44bd5f1c0c182de2d43874b9ba73d90.png

7. 总结 & 未来工作

我们的方法侧重于无纹理的打印零件。未来的挑战可能包括具有反射性或透明性的物体,如医疗器械,以进一步测试跟踪方法的边界。通过改进我们的6D姿态估计算法,结合几何先验,可以更好地跟踪具有几何模糊性的较小目标。此外,螺钉或类似物体可以更多地基于类别级别进行检测,以实现更可扩展的连接部件方法。为了克服遮挡,多摄像头设置可能会很有用,可能还包括AR设备的摄像头。为了应对更具挑战性的装配对象,可能需要更强大的跟踪重新初始化。

本文提出了一种新颖的适用于AR辅助装配任务的实时图形跟踪方法。GBOT使用基于先前装配姿态的先验知识,通过运动学链接跟踪多个装配部件,并将6D姿态估计的知识与物体跟踪相结合。我们的跟踪使GBOT能够在各种条件下持续跟踪对象,在装配过程中。为了使得在各种场景下与最先进技术进行比较,我们提出了GBOT数据集和额外记录的实景。在这个数据集上,我们评估了我们的YOLOv8Pose,跟踪方法SRT3D,ICG,ICG+SRT3D和GBOT。我们的数据集包含五个装配资产,每个资产都有三个或更多个独立部件。数据集的场景有四种条件,正常、动态光照、运动模糊和手部遮挡。GBOT在具有不同照明、手部遮挡和快速移动等情况下的合成场景以及真实录制的场景中表现良好。我们展示了与YOLOv8Pose相比,跟踪更准确,并且使用我们动态创建的运动学链接比单独跟踪更优越。GBOT在GBOT数据集上的表现优于最先进的跟踪算法,该数据集易于复现,旨在成为装配任务的基准。总之,我们的方法和数据集是迈向实时和稳健物体跟踪以及AR引导装配过程的有希望的一步。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

44dbdeb7eaf21945d189a988bd4402e9.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

49e12b0228ad7ce0a6bfa55be1a5d6c3.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

5dffc5dd58d3f046744be5db95bd72d8.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
a2f219fa5694c01b5c1595d0ca4a1f2e.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
0cfd042c3487517aa10f25c445a44902.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
7902ef2d5cc5e69507e710cfd3a16ad3.png硬件+源码+视频教程御风250无人机(基于PX4)
fe6b932f4931401fdf6aac48f2379b82.png配套标定源码高精度标定板(玻璃or大理石)
添加小助理:cv3d007或者QYong2014 咨询更多

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值