文 / Adel Ahmadyan 和 Liangkai Zhang,软件工程师,Google Research
机器学习 (ML) 技术日新月异,目前仅通过图片训练模型,就能在大量计算机视觉任务中取得卓越的准确率。基于这些成功快速发展的 3D 目标理解研究,为增强现实、机器人、自主性和图像检索等更广泛的应用提供动力。例如,我们在今年早些时候发布了一套专为移动设备设计的实时 3D 目标检测模型——MediaPipe Objectron,该模型在具有完全注解的真实世界 3D 数据集上训练,可以预测目标的 3D 边界框。
然而,与 2D 任务(例如 ImageNet、COCO 和 Open Images)相比,由于大型真实世界数据集的缺少,理解 3D 目标仍然是一项具有挑战性的任务。为了帮助科研界能够在 3D 目标理解领域持续取得研究成果,亟需发布以目标为中心,记录着更多 3D 结构信息的视频数据集,并使之能够匹配多种视觉任务的数据格式(例如视频或摄像头流),帮助对机器学习模型进行训练和基准测试。
Open Images
https://storage.googleapis.com/openimages/web/index.html
近日,我们发布了 Objectron 数据集,这是一个以目标为中心的短视频剪辑合集,包含大量从不同角度拍摄的常见目标。每个视频剪辑都随附 AR 会话元数据,如包括摄像头姿态和稀疏点云。数据还包含每个目标的手动标记 3D 边界框,描述目标的位置、方向和尺寸。数据集包含 1.5 万个带注解的视频剪辑,辅以收集自地理多样化样本的 400 多万个注解图像(覆盖五大洲