移动端实时读取串口数据_AI开源专题十：MediaPipe移动端实时3D目标检测算法，谷歌出品...-CSDN博客

Object Detection 由软件工程师Adel Ahmadyan和Tingbo Hou发布，是一个广泛研究的计算机视觉问题，但是大多数研究都集中在2D对象预测上。虽然2D预测仅提供2D边界框，但通过将预测扩展到3D，人们可以捕获物体在世界上的大小，位置和方向，从而在机器人技术，自动驾驶汽车，图像检索和增强现实中有多种应用。尽管2D对象检测相对成熟并且已在行业中广泛使用，但是由于缺乏数据以及类别中对象的外观和形状的多样性，从2D图像进行3D对象检测仍然是一个具有挑战性的问题。

今天，谷歌宣布发布MediaPipe Objectron，这是一种用于日常对象的移动实时3D对象检测管道。该管道可检测2D图像中的对象，并通过在新创建的3D数据集上训练的机器学习(ML)模型来估计其姿势和大小。Objectron在MediaPipe中实现，MediaPipe是一种开放源代码的跨平台框架，用于构建管道以处理不同形式的感知数据，Objectron可以在移动设备上实时计算面向对象的3D边界框。

从单个图像进行3D对象检测。MediaPipe Objectron可以实时确定移动设备上日常对象的位置，方向和大小。

获取现实世界中的3D训练数据

尽管有大量的街道场景3D数据，但由于依赖于3D捕获传感器(如LIDAR)的自动驾驶汽车的研究日益普及，带有地面真相3D注释的数据集可用于更精细的日常对象非常有限。为了克服这个问题，我们使用移动增强现实(AR)会话数据开发了一种新颖的数据管道。随着的到来ARCORE和ARKit，数以百万计的智能手机现在有AR能力和捕捉AR会话期间的额外信息，包括摄像头的姿势，稀疏的能力三维点云，估计照明和平面。

为了标记地面真相数据，我们构建了一个新颖的注释工具以与AR会话数据一起使用，该注释工具使注释者可以快速标记对象的3D边框。该工具使用分屏视图来显示2D视频帧，在其左侧叠加3D边界框，并在右侧显示3D点云，摄像机位置和检测到的平面的视图。注释器在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。对于静态对象，我们只需要在单个帧中对对象进行注释，并使用AR会话数据中的地面真相相机姿态信息将其位置传播到所有帧，这将使过程高效。

用于3D对象检测的真实数据注释。右： 3D边界框在3D世界中标注了检测到的表面和点云。左：带注释的3D边界框

用于3D对象检测的真实数据注释。右： 3D边界框在3D世界中标注了检测到的表面和点云。左：带注释的3D边界框的投影覆盖在视频帧的顶部，从而易于验证注释。

AR综合数据生成

一种流行的方法是用合成数据补充现实世界的数据，以提高预测的准确性。但是，尝试这样做通常会产生不良的，不真实的数据，或者在进行真实感渲染的情况下，需要大量的精力和计算量。我们称为AR综合数据生成(AR Synthetic Data Generation)的新颖方法将虚拟对象放置在具有AR会话数据的场景中，这使我们能够利用相机的姿势，检测到的平面和估计的照明来生成物理上可能的位置以及具有与场景匹配的照明的位置。这种方法可生成高质量的合成数据，其中包含渲染的对象，这些对象尊重场景的几何形状并无缝地适合实际背景。通过结合现实世界数据和AR综合数据，我们可以将准确性提高约10％。

AR综合数据生成的示例。虚拟白褐色谷物盒被渲染到真实场景中，紧邻真实蓝皮书。

用于3D对象检测的ML管道

我们建立了一个单阶段模型，以从单个RGB图像预测对象的姿势和物理尺寸。模型主干具有基于MobileNetv2构建的编解码器架构。我们采用多任务学习方法，通过检测和回归共同预测对象的形状。形状任务根据可用的地面真相注释(例如分段)来预测对象的形状信号。如果训练数据中没有形状注释，则这是可选的。对于检测任务，我们使用带注释的边界框并将高斯拟合到该框，中心在框质心处，标准偏差与框大小成正比。然后，检测的目标是预测这种分布，其峰值代表对象的中心位置。回归任务估计八个边界框顶点的2D投影。为了获得边界框的最终3D坐标，我们利用了完善的姿势估计算法(EPnP)。它可以恢复对象的3D边界框，而无需事先了解对象的尺寸。给定3D边界框，我们可以轻松计算对象的姿势和大小。下图显示了我们的网络架构和后处理。该模型轻巧到可以在移动设备上实时运行(在Adreno 650移动GPU上为26 FPS )。

用于3D对象检测的网络体系结构和后处理。

样本结果-[ 左侧 ]带有估计边界框的原始2D图像，[ 中间 ]高斯分布进行物体检测，[ 右侧 ]预测了分割蒙版

我们网络的样本结果-[ 左侧 ]带有估计边界框的原始2D图像，[ 中间 ]通过高斯分布进行物体检测，[ 右侧 ]预测了分割蒙版。

MediaPipe中的检测和跟踪

当将模型应用于移动设备捕获的每个帧时，由于每个帧中估计的3D边界框的歧义性，模型可能会发生抖动。为了减轻这种情况，我们采用了2D对象检测和跟踪解决方案中最近发布的检测+跟踪框架。该框架减轻了在每个帧上运行网络的需求，从而允许使用更重，因此更准确的模型，同时在移动设备上保持管道实时。它还可以跨帧保留对象身份，并确保预测在时间上保持一致，从而减少了抖动。

为了进一步提高移动管道的效率，我们每隔几帧仅运行一次模型推断。接下来，我们使用之前的博客中描述的方法进行预测并随时间跟踪它，该方法适用于即时运动跟踪和运动静止图像。当做出新的预测时，我们基于重叠区域将检测结果与跟踪结果合并。

为了鼓励研究人员和开发人员根据我们的管道进行实验和原型设计，我们在MediaPipe中发布了设备上的ML管道，其中包括端到端演示移动应用程序以及我们针对两类鞋子和椅子的训练有素的模型。我们希望与广泛的研究和开发社区共享我们的解决方案将刺激新的用例，新的应用程序和新的研究工作。将来，我们计划将模型扩展到更多类别，并进一步提高设备性能。

在野外进行3D对象检测的示例。

致谢

这篇文章中描述的研究是由Adel Ahmadyan，Tingbo Hou，Jianning Wei，Matthias Grundmann，张良kai，Jiuqiang Tang，Chris McClanahan，Tyler Mullen，Buck Bourdon，Esha Uboweja，Mogan Shieh，Siarhei Kazakou，Ming Guang Yong完成的。 Chang Chuing-Ling和James Bruce。本文为人工智能时报编译，转载请联系本公众号获得授权。