发布 Objectron 数据集，推进对 3D 目标的理解

谷歌开发者

于 2020-12-07 17:59:00 发布

阅读量1.9k

点赞数 1

文章标签：人工智能计算机视觉深度学习机器学习编程语言

本文链接：https://blog.csdn.net/googledevs/article/details/110848084

版权

Google Research发布了Objectron数据集，这是一个包含常见目标的短视频合集，用于推动3D目标理解的研究。数据集带有详细的3D边界框注解，包括摄像头姿态和稀疏点云信息。此外，他们还分享了基于MediaPipe的3D目标检测解决方案，以促进3D目标检测技术的发展。

摘要由CSDN通过智能技术生成

文 / Adel Ahmadyan 和 Liangkai Zhang，软件工程师，Google Research

机器学习 (ML) 技术日新月异，目前仅通过图片训练模型，就能在大量计算机视觉任务中取得卓越的准确率。基于这些成功快速发展的 3D 目标理解研究，为增强现实、机器人、自主性和图像检索等更广泛的应用提供动力。例如，我们在今年早些时候发布了一套专为移动设备设计的实时 3D 目标检测模型——MediaPipe Objectron，该模型在具有完全注解的真实世界 3D 数据集上训练，可以预测目标的 3D 边界框。

然而，与 2D 任务（例如 ImageNet、COCO 和 Open Images）相比，由于大型真实世界数据集的缺少，理解 3D 目标仍然是一项具有挑战性的任务。为了帮助科研界能够在 3D 目标理解领域持续取得研究成果，亟需发布以目标为中心，记录着更多 3D 结构信息的视频数据集，并使之能够匹配多种视觉任务的数据格式（例如视频或摄像头流），帮助对机器学习模型进行训练和基准测试。

Open Images
https://storage.googleapis.com/openimages/web/index.html

近日，我们发布了 Objectron 数据集，这是一个以目标为中心的短视频剪辑合集，包含大量从不同角度拍摄的常见目标。每个视频剪辑都随附 AR 会话元数据，如包括摄像头姿态和稀疏点云。数据还包含每个目标的手动标记 3D 边界框，描述目标的位置、方向和尺寸。数据集包含 1.5 万个带注解的视频剪辑，辅以收集自地理多样化样本的 400 多万个注解图像（覆盖五大洲