在人工智能领域的顶级会议NeurIPS上,斯坦福大学的杰出教授李飞飞发表了题为《From Seeing to Doing: Ascending the Ladder of Visual Intelligence》的主题演讲。在这次演讲中,李飞飞教授探讨了机器视觉的未来以及人工智能如何塑造我们的现实世界。她强调了空间智能的重要性,并将其视为全面智能的基石。李飞飞教授指出,解决空间智能问题是迈向全面智能的基础性、关键性步骤,并对实现真正理解三维世界的AI系统充满信心。
同时李飞飞教授还在会议开始前接受了IEEE Spectrum的独家专访。作为AI领域的领军人物,李飞飞教授和团队成员和在访谈中分享了一些观点:
1、AI视觉模型与语言模型的关系
李飞飞教授强调了AI视觉模型与语言模型同等重要性,并认为空间智能是视觉智能的发展方向。她指出,视觉和语言是AI发展的两大重要方向,它们各自独立但又相辅相成。
2、空间智能是什么?
空间智能是指机器在三维和思维时空中感知、推理和行动的能力,理解物体和事件的位置以及它们如何相互作用。这很重要,因为视觉空间智能被认为是包括人和机器人在内的任何智能的基础,对于导航、操纵和建立文明至关重要。
3、World Labs 的空间智能 与过去的人工智能研究不同之处
World Labs 的空间智能方法侧重于将机器学习从数据中心带入对3D和4D空间的现实世界理解中。这与过去的AI研究不同,过去的AI研究更受限制,专注于预定义的数据集和任务。
4、未来十年数据理解焦点的预期转移是什么?
预计未来十年数据理解的重点将转向理解新类型的数据,特别是可以通过带有摄像头和传感器的智能手机收集的数据,而不是以前存在的数据,如网络图像和视频。
5、2D图像在理解3D和4D结构方面的重要性是什么?
2D图像非常重要,因为它们是3D世界的投影,提供了一种数学连接,可用于理解物理世界的3D和4D结构。 它们提供了一种将图像用作物理世界的通用传感器的方法,并使大量2D观测能够恢复3D结构。
6、语言模型的一维性质与空间智能的三维性质有何对比?
语言模型的一维性质,其底层表示是一维的标记序列,与空间智能的三维性质形成对比,后者强调三维世界在其表示中的重要性。 空间智能利用一种基本的三维表示形式,允许不同的数据处理方法和输出,使其能够解决与在1D序列上操作的语言模型略有不同的问题。
7、在场景复杂度方面,这项技术的预期进展是什么?
这项技术的发展预计将从静态场景转向更加动态、完全可交互的环境,并具有所有提到的功能,如运动、物理和交互语义。
8、视觉空间智能和人工智能进步的基本要素是什么?
视觉空间智能和人工智能发展的基本要素包括强大的通用学习算法、大量的计算和大量的数据
9、团队构建所需的AI技术需要哪些特定的专业知识?
这个团队需要高质量的大规模工程专业知识,对3D世界的深刻理解,以及与计算机图形学的联系,以便从不同的角度解决问题。
10、对空间智能的长期愿景及其意义是什么?
对空间智能的长期愿景是解锁机器在三维空间和时间中感知、推理和行动的能力,理解物体和事件如何在其中定位和交互。 空间智能被视为高级人工智能的基础。
另外World Labs还分享迈向空间智能的第一步:从单个图像生成 3D 世界的 AI 系统。
数据集:HourVideo|视频理解数据集|多模态模型数据集
- 发布时间:2024-11-28
- 数据集内容:HourVideo是一个用于长时间视频语言理解的基准数据集。它包含了一个新颖的任务套件,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航(房间到房间、物体检索)任务。HourVideo包括从Ego4D数据集中手动挑选的500个以自我为中心的视频,持续时间为20到120分钟,并具有12,976个高质量的五路多项选择题。基准测试结果显示,多模态模型(包括GPT-4和LLaVA-NeXT)在随机机会上取得了微小的改进。相比之下,人类专家显著优于最先进的长时间上下文多模态模型Gemini Pro 1.5(85.0%对37.3%),突显了多模态能力上的巨大差距。我们希望将HourVideo建立为一个基准挑战,以推动能够真正理解无尽视觉数据流的先进多模态模型的发展。
- 数据集地址:HourVideo|视频理解数据集|多模态模型数据集
数据集:VLA-3D|3D场景理解数据集|室内导航数据集
- 发布时间:2024-11-06
- 数据集内容:VLA-3D是由卡内基梅隆大学机器人研究所创建的一个大型3D语义场景理解与导航数据集。该数据集包含超过11.5K个扫描的室内房间,23.5M个对象间的语义关系,以及9.7M个合成生成的指代语句。数据集内容包括处理后的3D点云、语义对象和房间标注、场景图、可导航的自由空间标注以及指代语言语句。创建过程涉及从多个现有数据集(如ScanNet、Matterport3D等)中提取3D扫描数据,并生成详细的场景图和语言语句。该数据集主要应用于室内导航系统,旨在解决复杂场景中的对象识别与空间推理问题,特别是对于需要高度鲁棒性的实际应用场景。
- 数据集地址:VLA-3D|3D场景理解数据集|室内导航数据集
数据集:Rel3D|3D空间关系数据集|机器人技术数据集
- 发布时间:2020-12-03
- 数据集内容:Rel3D是由普林斯顿大学创建的首个大规模人类标注的3D空间关系数据集。该数据集包含9990个3D场景,每个场景中包含两个物体,这些物体要么满足一个空间关系(主体-谓词-对象),要么不满足。数据集的内容包括深度、分割掩码、物体位置、姿态和尺度等丰富的几何和语义信息。创建过程涉及众包工作者在Amazon Mechanical Turk上根据指导操作物体,并由独立工作者验证空间关系是否成立。Rel3D的应用领域包括机器人导航、物体操作和人类机器人交互,旨在解决3D空间关系理解和预测的问题。
- 数据集地址:Rel3D|3D空间关系数据集|机器人技术数据集
数据集:VSI-Bench|多模态数据集|空间智能数据集
- 发布时间:2024-12-15
- 数据集内容:VSI-Bench是一个用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准。它包含超过5,000个问题-答案对,来源于288个从公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集中提取的以自我为中心的视频。VSI-Bench包括八项任务,分为配置、测量估计和时空三类。经过迭代优化,VSI-Bench为研究MLLMs与3D重建之间的联系提供了基础资源。
- 数据集地址:VSI-Bench|多模态数据集|空间智能数据集
数据集:Matterport3D|三维场景理解数据集|计算机视觉数据集
- 发布时间:2022-08-19
- 数据集内容:访问大型、多样化的 RGB-D 数据集对于训练 RGB-D 场景理解算法至关重要。然而,现有的数据集仍然只覆盖有限数量的视图或有限的空间规模。在本文中,我们介绍了 Matterport3D,这是一个大型 RGB-D 数据集,包含来自 90 个建筑规模场景的 194,400 个 RGB-D 图像的 10,800 个全景视图。注释与表面重建、相机姿势以及 2D 和 3D 语义分割一起提供。精确的全局对齐和对整个建筑物的全面、多样化的全景视图集支持各种监督和自我监督的计算机视觉任务,包括关键点匹配、视图重叠预测、颜色的正常预测、语义分割和场景分类。
- 数据集地址:Matterport3D|三维场景理解数据集|计算机视觉数据集
数据集:空间智能3D网格数据|3D模型数据集|空间智能数据集
- 发布时间:2024-12-12
- 数据集内容:本数据集提供百万数量级的高质量3D模型,涵盖各种空间结构和物体形状。每个3D模型都经过精细建模和网格优化,确保数据的精度和一致性。数据集适用于空间智能、3D重建、虚拟现实、游戏开发等领域的模型训练与应用,助力提升模型在复杂空间中的理解和操作能力。通过该数据集,开发者可以获得强大的3D数据支持,为智能系统的空间感知和决策提供坚实的基础。
- 数据集地址:空间智能3D网格数据|3D模型数据集|空间智能数据集
数据集:NYUDv2 (NYU Depth Dataset V2)|计算机视觉数据集|深度学习数据集
- 发布时间:2012-03-07
- 数据集内容:NYUDv2 是一个用于深度估计和语义分割的图像数据集,包含1449张RGB-D图像,每张图像都有对应的深度信息和语义标签。数据集主要用于计算机视觉任务,如深度估计、语义分割和物体识别。
- 数据集地址:NYUDv2 (NYU Depth Dataset V2)|计算机视觉数据集|深度学习数据集
数据集:ScanNet|计算机视觉数据集|3D语义分割数据集
- 发布时间:2022-09-01
- 数据集内容:ScanNet 是一个包含 2D 和 3D 数据的实例级室内 RGB-D 数据集。它是标记体素的集合,而不是点或对象。截至目前,ScanNet v2 是 ScanNet 的最新版本,已经收集了 1513 个带注释的扫描,表面覆盖率约为 90%。在语义分割任务中,该数据集被标记为 20 类带注释的 3D 体素化对象。
- 数据集地址:ScanNet|计算机视觉数据集|3D语义分割数据集
数据集:SUN RGB-D|计算机视觉数据集|机器学习数据集
- 发布时间:2015-06-06
- 数据集内容:SUN RGBD 数据集包含 10335 个房间场景的真实 RGB-D 图像。每个 RGB 图像都有对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。
- 数据集地址:SUN RGB-D|计算机视觉数据集|机器学习数据集
数据集:Stanford 3D Scanning Repository|计算机视觉数据集|3D建模数据集
- 发布时间:
- 数据集内容:该数据集包含多个3D扫描对象的模型,主要用于计算机视觉和图形学研究。数据集中的对象包括各种日常物品和人体模型,提供了高精度的3D点云数据和纹理信息。
- 数据集地址:Stanford 3D Scanning Repository|计算机视觉数据集|3D建模数据集
数据集:Habitat-Matterport 3D Research Dataset|3D室内空间数据集
- 发布时间:2021-12-02
- 数据集内容:Habitat-Matterport 3D研究数据集是迄今为止最大的3D室内空间数据集。它包含1,000个高分辨率的3D扫描(或数字双胞胎),这些扫描来自真实世界的住宅、商业和市政空间。
- 数据集地址:Habitat-Matterport 3D Research Dataset|3D室内空间数据集|数据集研究数据集
数据集:ShapeNet|3D模型数据集|计算机视觉数据集
- 发布时间:2022-08-16
- 数据集内容:ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
- 数据集地址:ShapeNet|3D模型数据集|计算机视觉数据集
数据集:Replica Dataset|三维重建数据集|室内空间分析数据集
- 发布时间:2019-02-09
- 数据集内容:
Replica Dataset是一个包含多种室内空间高质量重建的数据集。每个重建包含清晰的密集几何结构、高分辨率和高动态范围纹理、玻璃和镜面表面信息、平面分割以及语义和实例分割。 - 数据集地址:Replica Dataset|三维重建数据集|室内空间分析数据集
数据集:3D-COCO|3D重建数据集|计算机视觉数据集
- 发布时间:2024-04-09
- 数据集内容:3D-COCO数据集是由巴黎-萨克雷大学和CEA LIST机构创建的,作为MS-COCO数据集的扩展,专注于提供3D模型和2D-3D对齐注释。该数据集包含28,000个从ShapeNet和Objaverse收集的3D模型,旨在支持3D重建和图像检测等计算机视觉任务。创建过程中,通过IoU方法实现2D-3D对齐,确保模型与MS-COCO注释的最佳匹配。3D-COCO的应用领域包括自主驾驶、人群计数和智能视频监控等,致力于解决新语义类别的检测问题。
- 数据集地址:3D-COCO|3D重建数据集|计算机视觉数据集
数据集:CLEVR|视觉推理数据集|人工智能数据集
- 发布时间:2016-12-21
- 数据集内容:CLEVR是一个用于组合语言和基本视觉推理的诊断数据集,由斯坦福大学和Facebook AI Research共同创建。该数据集包含100,000张渲染图像和约一百万个自动生成的问题,旨在测试视觉推理能力,如计数、比较、逻辑推理和记忆信息。CLEVR的设计目标是允许对视觉推理进行详细分析,其图像描绘简单的3D形状,简化了识别过程,使研究者可以专注于推理技能。数据集通过拒绝采样在相关问题家族内最小化问题条件偏差,并避免看似复杂但包含简单捷径到正确答案的问题。CLEVR的应用领域包括分析视觉问答系统的能力和局限性,为研究者提供了一个工具来理解和改进这些系统的性能。
- 数据集地址:CLEVR|视觉推理数据集|人工智能数据集
数据集:Pix3D|3D建模数据集|计算机视觉数据集
- 发布时间:2022-05-09
- 数据集内容:我们从单个图像研究3D形状建模,并在三个方面对其做出贡献。首先,我们介绍了 Pix3D,这是一个具有像素级 2D-3D 对齐的各种图像形状对的大规模基准。 Pix3D 在形状相关的任务中有着广泛的应用,包括重建、检索、视点估计等。然而,构建这样一个大规模的数据集是非常具有挑战性的;现有数据集要么仅包含合成数据,要么缺乏 2D 图像和 3D 形状之间的精确对齐,或者只有少量图像。其次,我们通过行为研究校准了 3D 形状重建的评估标准,并用它们来客观、系统地对 Pix3D 上的尖端重建算法进行基准测试。第三,我们设计了一个同时执行 3D 重建和姿态估计的新模型;我们的多任务学习方法在这两个任务上都实现了最先进的性能。
- 数据集地址:Pix3D|3D建模数据集|计算机视觉数据集
数据集:ZAHA|3D建模数据集|语义分割数据集
- 发布时间:2024-11-08
- 数据集内容:ZAHA数据集是由慕尼黑工业大学创建的,是目前最大的3D立面语义分割数据集,包含601亿个标注点。数据集涵盖了多种建筑风格的66个立面,提供了15个与立面相关的类别。数据集的创建基于国际城市建模标准,确保了与现实世界挑战性类别的兼容性和方法的统一比较。数据集的创建过程利用了移动激光扫描(MLS)设备获取的密集街道级点云数据,并进行了详细的语义标注。ZAHA数据集主要应用于3D立面语义分割和城市数字孪生的创建,旨在解决立面语义分割中的挑战性问题。
- 数据集地址:ZAHA|3D建模数据集|语义分割数据集
数据集:HM3D 3D 室内场景数据集|3D建模数据集|室内设计数据集
- 发布时间:2023-03-06
- 数据集内容:HM3D 全称 Habitat-Matterport 3D,是一个交互式 3D 室内场景数据集,包含 1,000 个来自不同现实世界地点的建筑规模 3D 重建。该数据集中的每一个场景都由内部的带纹理的 3D 网格重建组成,如:多层住宅、商店和其他私人室内空间。
- 数据集地址:HM3D 3D 室内场景数据集|3D建模数据集|室内设计数据集
数据集:ObjectNet3D|3D对象识别数据集|计算机视觉数据集
- 发布时间:2022-08-19
- 数据集内容:ObjectNet3D 是一个用于 3D 对象识别的大型数据库,命名为,由 100 个类别、90,127 张图像、这些图像中的 201,888 个对象和 44,147 个 3D 形状组成。数据库中图像中的对象与 3D 形状对齐,对齐方式为每个 2D 对象提供准确的 3D 姿势注释和最接近的 3D 形状注释。因此,该数据库可用于从 2D 图像中识别对象的 3D 姿势和 3D 形状。作者还提供了四个任务的基线实验:区域提议生成、2D 对象检测、联合 2D 检测和 3D 对象姿态估计以及基于图像的 3D 形状检索,可以作为未来研究的基线。
- 数据集地址:ObjectNet3D|3D对象识别数据集|计算机视觉数据集
数据集:Structured3D|3D建模数据集|计算机视觉数据集
- 发布时间:2022-11-02
- 数据集内容:Structured3D是一个大型照片逼真数据集,包含3.5K房屋设计 (a),由专业设计师创建,具有各种地面真相3D结构注释 (b) 并生成照片逼真的2D图像 (c)。数据集包括在不同的照明和家具配置下渲染图像和相应的地面真相注释 (例如,语义,反照率,深度,表面法线,布局)。
- 数据集地址:Structured3D|3D建模数据集|计算机视觉数据集