谷歌公布13GB 3D扫描数据集：17大类、1030个家用物品

最新推荐文章于 2025-02-26 21:22:49 发布

Tom Hardy

最新推荐文章于 2025-02-26 21:22:49 发布

阅读量894

点赞数

文章标签：算法机器学习人工智能大数据计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2Nzg4NjA5OQ==&mid=2247511407&idx=1&sn=48d4f7553cae7a61e3d03d29afcea298&chksm=eafae613dd8d6f050e1d5f2efa88e895f25e5f89577eefc3dbe3d05adf1c106c1d7c6edc82b6&scene=126&&sessionid=0

版权

来源丨机器之心

编辑丨极市平台

近年来，深度学习技术使得计算机视觉和机器人领域的许多进展成为可能，但训练深度模型需要各种各样的输入，以泛化到新的场景。

此前，计算机视觉领域已经利用网页抓取技术收集了数百万个主题的数据集，包括 ImageNet、Open Image、Youtube-8M、COCO 等。然而，给这些数据集贴标签仍是一个劳动密集型工作，标签错误可能会影响到对技术进步的感知，而且这种策略也很难推广至 3D 或真实世界的机器人数据上。与图像不同的是，目前网络上并没有大规模、高质量的 3D 场景，而从真实世界收集这类数据又极具挑战性。此外，人工标注员也很难从图像中提取 3D 几何特性。

一般来说，使用 Gazebo、Bullet、MuJoCo、Unity 等工具对机器人和环境进行仿真可以减轻上述限制。但是，仿真毕竟不完全是真实世界，即使一个场景是直接通过对真实环境的 3D 扫描建立起来的，扫描中的离散对象也会像固定的背景物一样，不会像真实世界的对象那样对输入做出回应。

因此，关键问题在于提供一个高质量的 3D 对象模型库，这些模型可以整合到物理和视觉建模中，为深度学习提供所需的多样性。

为了解决这个问题，谷歌的研究者提出了 Google Scanned Objects (GSO) 数据集，这是一个由超过 1000 个 3D 扫描家用物品组成的精选集，可用于 Ignition Gazebo、Bullet 模拟器和其他可以读取 SDF 模型格式的工具。

在一篇论文中，研究者介绍了该数据集的收集、管理、扩展等内容。

论文链接：https://arxiv.org/pdf/2204.11918.pdf

据不完全统计，GSO 数据集已经在计算机视觉、计算机图形学、机器人操作、机器人导航和 3D 形状处理等 10 个项目的 12 篇论文中得到应用：

该研究贡献主要有几点：

提出 Google Scanned Objects 数据集；
3D 扫描 pipeline 设计；
3D 扫描管理和发布过程；
该数据集在研究领域中的影响。

数据集的创建

GSO 数据集起源于 2011 年谷歌的云机器人计划，目的是让机器人基于普通家用物品的高保真 3D 模型，能够在自己的环境中识别和抓取物体。

然而，除了物体识别和机器人抓取之外，3D 模型还有很多用途，包括用于物理模拟的场景构建和用于终端用户应用的 3D 物体可视化。因此，谷歌研究院发起了一个项目，将 3D 体验大规模引入谷歌，以低于传统商业级产品摄影的成本收集大量家用物品的 3D 扫描图像。

这是一项端到端的工程，包括物体获取、新颖的 3D 扫描硬件、高效的 3D 扫描软件、快速 3D 渲染的质量保障、网络与移动浏览器，以及人机交互研究。

在收集数据之后，研究者构建了一个 pipeline，让这些数据能以各种格式使用。

3D 扫描 pipeline

即使限于家用物品的领域，3D 扫描也会带来独特的挑战，包括高效的物理扫描设置、目标照明、相机可靠性、扫描仪性能、配色、纹理渲染，以及处理光学上不一致的材料，比如近白色、有光泽或透明的表面。

专用的 3D 扫描硬件是劳动密集型的，性价比不高。为了进行大规模扫描，还需要一些更具可用性和可靠性的工具。

因此，研究者设计了自己的专用扫描硬件和软件（图 2），能够在 10 分钟内扫描物体并生成高分辨率模型。控制光线的物理外壳（图 2b）使用两台机器视觉相机和一台投影仪进行结构光扫描，捕捉 3D 几何图形，并使用单独的单反高分辨率相机以产品友好的光线捕捉纹理。

项目第一年结束的时候能够做到每周超过 400 次扫描，过程中，研究团队共获得了 100K 份 360 度照片旋转和 10k 份完全 3D 扫描的独特对象。

图 2。

图 3：作为校准过程的扫描。(a) 校正模式使 2D pipeline 能够精确对齐相机。(b) 计算机控制的投影仪为 3D 扫描物体创造了类似的图案。(c) 合适的模式能够以亚像素精度探测位置。(d) 提取扫描物体的完整 3D 形状。

图 4：扫描的物品需要通过质量检查。(a) 许多物品被捕获为高质量的封闭流形 mesh。(b) 有的物体很少产生无效的 mesh，但有时会出现变形。

仿真模型转换

这些原始的扫描模型使用协议缓冲元数据、非常高分辨率的可视化、不适合模拟的格式。对象的一些物理属性，比如质量，会被捕获，但诸如摩擦之类的表面属性在元数据中则没有表示。

为了让这些扫描的模型能够在仿真系统中使用，每个模型都通过一个 pipeline 进行下列步骤：

过滤无效对象。
分配对象名称。
验证对象 mesh。
计算物理属性。
构造碰撞体积。
减小模型尺寸。
创建 SDF 模型。
创建缩略图。
打包模型。

数据集属性

组成

GSO 数据集包含 1030 个扫描对象和相关的元数据，总计 13GB，根据 CCBY 4.0 License 授权。表 III.1 分解了数据集中的模型类别。

表 III.1

优势

自动化 pipeline 可以快速生成大量模型，而无需手工处理。因为这些模型是扫描的，而不是手工建模的，所以它们是真实的，而不是理想中的，这减少了将学习从模拟转移到真实世界的困难。

扫描仪的玻璃平台可以从各个方面扫描模型，包括底座，不像其他扫描仪有不透明的平台。类似地，从环境中提取的模型通常缺少像底座这样起到衔接作用的遮挡区域。

因为该扫描仪根据投影图案而不是深度照相机数据重建表面形状，所以得到的 mesh 具有高保真度。光滑的表面是平滑的，轮廓边缘是准确的 (图 5)。相比之下，RGB-D 数据得到的 mesh，可能出现斑驳和不规则，特别是在轮廓上。

图5

限制

同时，这个数据集也有一些限制：扫描仪的捕捉区域不能容纳比面包箱 (约 50 厘米) 大的对象，因此该数据集不包括在其他数据集中较大的对象，如椅子、汽车或飞机。同样，扫描分辨率是有限的，所以非常小的对象不能以合理的保真度建模。此外，生成的纹理是漫反射的：高度镜面或透明的对象不能表征出来，生成结果也不够理想。

更多细节可参考原论文。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：