用于增强现实的实时可穿带目标检测:基于YOLOv8进行ONNX转换和部署

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

1bed476d1d4d7d7ffad3f3017195f25e.gif

4b4ed775ef9a36571d5fff5fa1a96248.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

今天给大家介绍了一种在增强现实(AR)环境中使用机器学习(ML)进行实时目标检测的软件体系结构。

4e4c26c39087c590ed4002c171a16f99.gif

01

前景概要

我们的方法使用了最近最先进的YOLOv8网络,该网络在Microsoft HoloLens 2头戴式显示器(HMD)上运行。这项研究背后的主要动机是通过可穿戴、免提的AR平台,应用先进的ML模型来增强感知和情景感知。我们展示了YOLOv8模型的图像处理流水线,以及在耳机的资源有限的边缘计算平台上使其实时的技术。实验结果表明,我们的解决方案在不需要将任务卸载到云或任何其他外部服务器的情况下实现了实时处理,同时在通常的mAP度量和测量的定性性能方面保持了令人满意的准确性。

5378ca02f5e64620732c01f2f207be96.gif

02

背景&动机

属于沉浸式技术类别的增强现实(AR)技术通过在用户视野(FoV)中叠加数字内容,提供了将数字伪像与物理环境融合的能力(如下图)。

6ff1e70406a230ef1f51686c34d8ddfa.png

目前,在智能手机或平板电脑等移动设备上运行的流行AR应用程序可以通过机器学习(ML)进一步增强。得益于这种方法,我们可以在视频和图像数据上包括基于视觉的目标检测和跟踪特征。然而,移动AR解决方案有很大的局限性,例如相对较小的FoV受到屏幕画布的限制或需要手动控制。后者缩小了我们可以成功部署AR的潜在场景,如手动组装、设备修复任务或老年人使用AR增强剂。在这种情况下,用户不仅能够自由移动双手,而且能够迅速改变无约束的FoV或身体姿势,这对于安全问题和任务完成至关重要。

可穿戴智能头戴式显示器(HMD)的替代技术规避了这些警告。AR耳机,如被广泛认为是最先进的Microsoft HoloLens 2(HL2),提供免提AR体验。不幸的是,HL2和其他类似的耳机并不能为基于ML的处理提供令人满意的支持,这可以增强用户与环境交互的能力。因此,在耳机的边缘计算平台中运行板载实时ML模型对于开发新的AR应用领域至关重要。

我们解决了HL2上的实时对象检测问题,包括最新的YOLOv8框架。我们专注于定义必要的步骤,以实现板载ML模型所需的图像处理帧速率,同时确定HL2计算平台的约束条件。克服这些限制使得能够在耳机上使用广泛可用的ML算法。我们还相信,AR开发人员可以利用我们在YOLOv8 for HL2上的工作来创建新的应用程序,扩展该耳机的当前用例。

529afd4aba3514b206203ef5dff7934d.gif

03

新框架设计

整体的思路如下图所示。我们首先为HL2准备YOLOv8神经网络模型。这些模型可以选择性地重新训练(微调)以包括不同的检测类别。下一步涉及将模型导出为开放神经网络交换(ONNX)格式。然后,Unity引擎中的Barracuda库使用该模型对HL2执行目标检测,并提供检测到的对象的可视化。我们决定使用Unity平台,因为它是AR和VR(虚拟现实)研究中使用最广泛的软件框架之一。

fbdbbcb70593eb8408bf23d65ce7cf4b.png

用于ML推理的Barracuda库

检测管道的神经网络部分基于Barracuda库。它是Unity开发的一个开源库,用于在游戏引擎中使用神经网络。它支持最常见的深度学习层,并提供GPU和CPU推理引擎。通过使用ONNX格式加载预训练的神经网络,确保了对不同机器学习库的跨框架支持。它实现了不同ML框架之间的互操作性,提供了一组用于深度学习的标准操作。

模型准备

在线操作中使用的每个模型都可以使用相同的管道进行准备。我们将PyTorch序列化的.pt文件中的每个模型导出为ONNX格式。由于当前的Barracuda版本支持高版本9的ONNX深度学习操作(opset),因此导出具有正确opset标志的模型至关重要。除了导出之外,还可以使用ONNX简化工具缩小模型。该操作使用常数折叠合并冗余运算符,从而加快推理速度。我们成功测试了导出和部署公开可用的原始YOLOv8目标检测模型。此外,我们可以为任何具有足够数据的自定义类训练YOLOv8,同时遵循对自定义数据集进行模型微调的指导原则。

HL2上的目标检测流水线

275dd42a9c83db831448f40465b2f088.png

我们提出了用于HL2的机载实时YOLO对象检测的通用流水线如上图所示。

189d61f50334ce37ea768dcf51701ffc.gif

04

实验

不同检测模型配置的性能如下图所示mAP@50和mAP@50-95对IoU阈值范围内的性能进行平均。所获得的结果表明,当使用较小的模型时,推理性能会显著下降。

650d891c941c264e2d298da7cc2f2aa1.png

3d4d2688df672ab3093ecff0ecb6dfad.png

除了网络的大小之外,另一种可能性是减小输入图像的大小,因为它直接影响推理时间。对于不同的图像输入大小,我们获得的结果如上图所示。

84593699d4270f52237ab6a2cf667ac8.png

所提出的实时YOLOv8n在使用160×160输入图像大小时的性能

© THE END 

bcbb41dfd99347ef78c37918753f0bcb.gif

转载请联系本公众号获得授权

e83e6762e8c976d171d5209caaea6262.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

32ee5f3db70c9ca88f2bfd73e12df3dd.png

 往期推荐 

🔗

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值