51c大模型~合集19-CSDN博客

#用苹果Vision Pro隔空操控机器人

黄仁勋表示：「AI 的下一波浪潮是机器人，其中最令人兴奋的发展之一是人形机器人。」如今，Project GR00T 又迈出了重要的一步。

昨日，英伟达创始人黄仁勋在 SIGGRAPH 2024 Keynote 演讲中讲到了其人形机器人通用基础模型「Project GR00T」。该模型在功能上迎来了一系列更新。

德克萨斯大学奥斯汀分校助理教授、英伟达高级研究科学家朱玉可发推，在视频中演示了英伟达如何将通用家务机器人大规模仿真训练框架 RoboCasa 和 MimicGen 系统整合到英伟达 Omniverse 平台和 Isaac 机器人开发平台。

图源：https://x.com/yukez/status/1818092679936299373

视频中涵盖了英伟达自己的三个计算平台，包括 AI、Omniverse 和 Jetson Thor，利用它们简化和加速开发者工作流程。通过这些计算平台的共同赋能，我们有望进入由物理 AI 驱动的人形机器人时代。

51c大模型~合集19_3D

其中最大的亮点，开发人员能够使用苹果 Vision Pro 来远程操控人形机器人来执行任务。

51c大模型~合集19_Layout_02

51c大模型~合集19_人形机器人_03

与此同时，另一位英伟达高级研究科学家 Jim Fan 表示，Project GR00T 的更新令人振奋。英伟达利用系统化的方法来扩展机器人数据，解决了机器人领域最棘手的难题。

思路也很简单：人类在真实机器人身上收集演示数据，而英伟达在仿真中将这些数据扩展千倍及以上。通过 GPU 加速仿真，人们现在可以用算力来换取耗时耗力耗资金的人类收集数据了。

他谈到自己不久前还认为远程操控在根本上不可扩展，这是因为在原子世界中，我们总是受到 24 小时 / 机器人 / 天数的限制。英伟达在 GR00T 上采用的新的合成数据 pipeline 在比特世界打破了这一局限。

图源：https://x.com/DrJimFan/status/1818302152982343983

对于英伟达在人形机器人领域的最新进展，有网友表示，苹果 Vision Pro 找到了最酷的用例。

英伟达开始引领下一波浪潮：物理 AI

英伟达也在一篇博客中详述了加速人形机器人的技术流程，完整内容如下：

为了加速全球范围内人形机器人的发展，英伟达宣布为全球领先的机器人制造商、AI 模型开发商和软件制造商提供一套服务、模型和计算平台，以开发、训练和构建下一代人形机器人。

51c大模型~合集19_人形机器人_04

这套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务，以及支持 AI 和仿真的远程操作工作流，该工作流允许开发者使用少量人类演示数据来训练机器人。

黄仁勋表示：「AI 的下一波浪潮是机器人，其中最令人兴奋的发展之一是人形机器人。我们正在推进整个 NVIDIA 机器人堆栈的发展，面向全球人形机器人开发者和公司开放访问，让他们能够使用最符合其需求的平台、加速库和 AI 模型。」

51c大模型~合集19_Layout_05

借助 NVIDIA NIM 和 OSMO 加速开发

NIM 微服务提供了由英伟达推理软件提供支持的预构建容器，使开发人员能够将部署时间从几周缩短到几分钟。

两个新的 AI 微服务将允许机器人专家在 NVIDIA Isaac Sim 中增强生成物理人工智能仿真工作流程。

MimicGen NIM 微服务根据来自空间计算设备（如 Apple Vision Pro）记录的远程数据生成合成运动数据。Robocasa NIM 微服务可在 OpenUSD 中生成机器人任务和仿真环境。

云原生托管服务 NVIDIA OSMO 现已推出，允许用户在分布式计算资源（无论是在本地还是在云中）中协调和扩展复杂的机器人开发工作流程。OSMO 的出现大大简化了机器人训练和仿真工作流程，将部署和开发周期从数月缩短至不到一周。

为人形机器人开发者提供先进的数据捕获工作流

训练人形机器人背后的基础模型需要大量的数据。获取人类演示数据的一种方法是使用远程操作，但这种方式正变得越来越昂贵和漫长。

通过在 SIGGRAPH 计算机图形大会上展示的 NVIDIA AI 和 Omniverse 远程操作参考工作流，研究者和 AI 开发者能够从极少量远程捕捉的人类演示中生成大量合成运动和感知数据。

51c大模型~合集19_人形机器人_06

首先，开发人员使用 Apple Vision Pro 捕捉少量远程演示。然后，他们在 NVIDIA Isaac Sim 中仿真录音，并使用 MimicGen NIM 微服务从录音中生成合成数据集。

开发人员使用真实数据和合成数据来训练 Project GR00T 人形机器人基础模型，从而节省了大量的时间并降低了成本。然后，他们使用 Isaac Lab 中的 Robocasa NIM 微服务（一种机器人学习框架）来生成经验以重新训练机器人模型。在整个工作流中，NVIDIA OSMO 将计算任务无缝地分配给不同的资源，为开发者减少了数周的管理工作量。

扩大对 NVIDIA 人形机器人开发者技术的访问权限

NVIDIA 提供了三个计算平台来简化人形机器人的开发：用于训练模型的 NVIDIA AI 超级计算机；基于 Omniverse 构建的 NVIDIA Isaac Sim，机器人可以在仿真世界中学习和完善技能；以及用于运行模型的 NVIDIA Jetson Thor 人形机器人计算机。开发人员可以根据自己的特定需求访问和使用全部或部分平台。

通过新的 NVIDIA 人形机器人开发者计划，开发者可以提前使用新产品以及 NVIDIA Isaac Sim、NVIDIA Isaac Lab、Jetson Thor 和 Project GR00T 通用人形机器人基础模型的最新版本。

1x、波士顿动力、字节跳动、Field AI、Figure、Fourier、Galbot、LimX Dynamics、Mentee、Neura Robotics、RobotEra 和 Skild AI 是首批加入早期访问计划的公司。

开发人员现在可以加入 NVIDIA 人形机器人开发人员计划，以访问 NVIDIA OSMO 和 Isaac Lab，并且很快将获得 NVIDIA NIM 微服务的访问权限。

博客链接：

https://nvidianews.nvidia.com/news/nvidia-accelerates-worldwide-humanoid-robotics-development

#GALA3D

复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室，第一作者为博士生周啸宇，通讯作者为博士生导师王勇涛。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项，和国内外知名高校、科研机构广泛开展合作。

近年来，针对单个物体的 Text-to-3D 方法取得了一系列突破性进展，但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。

最近，来自北京大学王选计算机研究所的 VDIG 研究团队与其合作者公布了最新研究成果 GALA3D。针对多物体复杂 3D 场景生成，该工作提出了 LLM 引导的复杂三维场景可控生成框架 GALA3D，能够生成高质量、高一致性、具有多物体和复杂交互关系的 3D 场景，支持对话式交互的可控编辑，论文已被 ICML 2024 录用。

论文标题：GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
论文链接：https://arxiv.org/pdf/2402.07207
论文代码：https://github.com/VDIGPKU/GALA3D
项目网站：https://gala3d.github.io/

51c大模型~合集19_3D_07

GALA3D 是一个高质量的 Text-to-3D 复杂组合场景生成与可控编辑框架。用户输入一段描述文本，GALA3D 能够 zero-shot 地生成相应的具有多物体和复杂交互关系的三维场景。GALA3D 在保证生成 3D 场景与文本高度对齐的同时，展现了其在生成场景质量、多物体复杂交互、场景几何一致性等方面的卓越性能。此外，GALA3D 还支持用户友好的端到端生成和可控编辑，使得普通用户能够在对话式的交谈中轻松定制和编辑 3D 场景。在与用户的交流中，GALA3D 可以精准地实现复杂三维场景对话式的可控编辑，并根据用户的对话实现复杂三维场景的布局变换、数字资产嵌入、装修风格改变等多样化的可控编辑需求。

方法介绍

GALA3D 的整体架构如下图所示：

51c大模型~合集19_人形机器人_08

GALA3D 利用大型语言模型（LLMs）生成初始布局，并提出布局引导的生成式 3D 高斯表示构建复杂 3D 场景。GALA3D 设计通过自适应几何控制优化 3D 高斯的形状和分布，以生成具有一致几何、纹理、比例和精确交互的 3D 场景。此外，GALA3D 还提出了一种组合优化机制，结合条件扩散先验和文生图模型，协作生成具有一致风格的 3D 多物体场景，同时迭代优化从 LLMs 提取的初始布局先验，以获得更加逼真准确的真实场景空间布局。广泛的定量实验和定性研究表明 GALA3D 在文本到复杂三维场景生成方面取得了显著效果，超越现有文生 3D 场景方法。

a、基于 LLMs 的场景布局先验

大语言模型展现了优异的自然语言理解和推理能力，本文进一步探索了 LLMs 大语言模型在 3D 复杂场景的推理和布局生成能力。如何在没有人工设计的情况下获得相对合理的布局先验有助于减少场景建模和生成的代价。对此，我们使用 LLMs (例如 GPT-3.5) 对文本输入的实例及其空间关系进行抽取，并生成相应的 Layout 布局先验。然而，通过 LLMs 解读的场景 3D 空间布局和 Layout 先验与实际场景存在一定差距，通常表现生成悬浮 / 穿模的物体，比例差异过大的物体组合等。进一步地，我们提出了 Layout Refinement 模块，通过基于视觉的 Diffusion 先验和 Layout 引导的生成式 3D 高斯对上述生成的粗糙布局先验进行调整和优化。

b、Layout Refinement

GALA3D 使用基于 Diffusion 先验的 Layout 布局优化模块对上述 LLMs 生成的布局先验进行优化。具体地，我们将 Layout 引导的 3D 高斯空间布局的梯度优化加入 3D 生成过程，通过 ControlNet 对 LLM-generated Layouts 进行空间位置、旋转角度和尺寸比例的调整，如图展示了优化前后 3D 场景和 Layout 的对应关系。经过优化的 Layout 具有更加准确的空间位置和比例尺度，并且使得 3D 场景中多物体的交互关系更加合理。

51c大模型~合集19_3D_09

c、布局引导的生成式 3D 高斯表示

我们首次将 3D-Layout 约束引入 3D 高斯表示，提出了布局引导的生成式 3D 高斯，用于复杂文生 3D 场景。Layout-guided 3D 高斯表示包含多个语义抽取的实例物体，其中每个实例物体的 Layout 先验可以参数化为：

51c大模型~合集19_Layout_10

其中，N 代表场景中实例物体的总数。具体地，每一个实例 3D 高斯通过自适应几何控制进行优化，得到实例级的物体 3D 高斯表示。进一步地，我们将多个物体高斯根据相对位置关系组合到全场景中，生成布局引导的全局 3D 高斯并通过全局 Gaussian Splatting 渲染整个场景。

d、自适应几何控制

为了更好地控制 3D 高斯在生成过程中的空间分布和几何形状，我们提出了针对生成式 3D 高斯的自适应几何控制方法。首先给定一组初始高斯，为了将 3D 高斯约束在 Layout 范围内，GALA3D 使用一组密度分布函数来约束高斯椭球的空间位置。我们接着对 Layout 表面附近的高斯进行采样来拟合分布函数。之后，我们提出使用形状正则化控制 3D 高斯的几何形状。在 3D 生成的过程中，自适应几何控制不断优化高斯的分布和几何，从而生成更具纹理细节和规范几何的 3D 多物体与场景。自适应几何控制还保证了布局引导的生成式 3D 高斯具有更高的可控性和一致性。

实验结果

与现有 Text-to-3D 生成方法相比，GALA3D 展现了更加优异的 3D 场景生成质量和一致性，定量实验结果如下表所示：

我们还进行了广泛且有效的用户调研，邀请 125 位参与者（其中 39.2% 为相关领域的专家和从业人员）对本文方法和现有方法的生成场景进行多角度评估，结果如下表所示：

实验结果表明 GALA3D 在生成场景质量、几何保真度、文本一致性、场景一致性等多维度的测评指标中均超越现有方法，取得了最优的生成质量。

如下图定性实验结果所示，GALA3D 能够 zero-shot 地生成复杂多物体组合 3D 场景，并且具有良好的一致性：

51c大模型~合集19_Layout_11