3d目标检测_谷歌AI:一部手机就能实时完成3D目标检测

在计算机视觉领域里,跟踪3D目标是一个棘手的问题,尤其是在有限的计算资源上。如何从2D图像中做3D目标检测,对于计算机视觉研究来说,一直是个挑战。

3f68b3643a274e71ca1c403c8c12b243.png

近日,谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法框架,利用这个算法框架,只要一部手机,就能实时从2D视频里识别3D物品的位置、大小和方向。这一技术可以帮助机器人,自动驾驶汽车,图像检索和增强现实等领域实现一系列的应用。

ece5a2f9e3bc661d4d06e0c8ba627897.png

分开来解释,MediaPipe是一个开源代码跨平台框架,主要用于构建处理不同形式的感知数据,而Objectron在MediaPipe中实现,并能够在移动设备中实时计算面向对象的3D边界框。在计算机视觉领域里,跟踪3D目标是一个棘手的问题,尤其是在有限的计算资源上,例如,智能手机上。由于缺乏数据,以及需要解决物体多样的外观和形状时,而又仅有可2D图像可用时,情况就会变得更加困难。

d15b4c1ab37a3d41dc632ec5842bc8c6.gif

为了解决这个问题,谷歌Objectron团队开发了一套工具,可以用来在2D视频里为对象标注3D边界框,而有了3D边界框,就可以很容易地计算出物体的姿态和大小。注释器可以在3D视图中绘制3D边界框,并通过查看2D视频帧中的投影来验证其位置。对于静态对象,他们只需在单个帧中注释目标对象即可。

6a8ff659cad857bd30d97bb9ef85acae.gif

右:在3D世界中检测表面和点云标注3D边界框。左:带注释3D边界框的投影叠加于视频帧,从而便以验证注释。

为了补充现实世界的训练数据以提高AI模型预测的准确性,该团队还开发了一种名为AR Synthetic Data Generation(增强现实合成数据生成)的新颖方法。它可以将虚拟对象放置到具有AR会话数据的场景中,允许你利用照相机,检测平面和估计照明,来生成目标对象的可能的位置,以及生产具有与场景匹配的照明。这种方法可生成高质量的合成数据,其包含的渲染对象能够尊重场景的几何形状并无缝地适配实际背景。

d5fc9893a08383652d6a2416f0fa22ce.png

网络的样本结果:左边是带有估计边界框的原始2D图像;中间是高斯分布的对象检测;右边是预测的分割蒙版。

通过上述两个方法,谷歌结合了现实世界数据和增强现实合成数据,将检测准确度度提高了10%

准确度的提升是一方面,谷歌表示,当前版本的Objectron模型还足够“轻巧”,可以在移动设备上实时运行。借助LG V60 ThinQ,三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片,它能够每秒处理约26帧图像,基本做到了实时检测。

56290515e3c820ce8bc5b2d7df8a0ef6.png


接下去,谷歌团队表示:" 我们希望通过与更多的研究员和开发者共享我们的解决方案,这将激发新的应用案例和新的研究工作。我们计划在未来将模型扩展到更多类别,并进一步提高设备性能。"

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值