点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Cube: A Roblox View of 3D Intelligence
作者:Foundation AI Team Roblox: Kiran Bhat, Nishchaie Khanna, Karun Channa, Tinghui Zhou, Yiheng Zhu, Xiaoxia Sun, Charles Shang, Anirudh Sudarshan, Maurice Chu, Daiqing Li, Kangle Deng, Jean-Philippe Fauconnier, Tijmen Verhulsdonck, Maneesh Agrawala, Kayvon Fatahalian, Alexander Weiss, Christian Reiser, Ravi Kiran Chirravuri, Ravali Kandur, Alejandro Pelaez, Akash Garg, Michael Palleschi, Jessica Wang, Skylar Litz, Leon Liu, Anying Li, David Harmon, Derek Liu, Liangjun Feng, Denis Goupil, Lukas Kuczynski, Jihyun Yoon, Naveen Marri, Peiye Zhuang, Yinan Zhang, Brian Yin, Haomiao Jiang, Marcel van Workum, Thomas Lane, Bryce Erickson, Salil Pathare, Kyle Price, Anupam Singh, David Baszucki
机构:Foundation AI team, Roblox
原文链接:https://arxiv.org/abs/2503.15475
代码链接:https://github.com/Roblox/cube
1. 导读
基于大量数据训练的基础模型在文本、图像、音频和视频领域表现出非凡的推理和生成能力。我们在Roblox的目标是为3D智能建立这样一个基础模型,这个模型可以支持开发人员制作Roblox体验的所有方面,从生成3D对象和场景到为动画制作角色,再到制作描述对象行为的编程脚本。我们讨论了这种三维基础模型的三个关键设计要求,然后介绍了建立这种模型的第一步。我们预计3D几何形状将成为核心数据类型,并描述了我们的3D形状标记器解决方案。我们展示了如何在文本到形状的生成、形状到文本的生成和文本到场景的生成的应用中使用我们的记号化方案。我们展示了这些应用程序如何与现有的大型语言模型(LLM)协作来执行场景分析和推理。最后,我们将讨论如何为3D智能构建一个完全统一的基础模型。
2. 效果展示
我们正在开发一个3D智能基础模型,以支持场景生成等应用。这个冬季村庄场景是通过与我们原型场景生成工具的多轮对话生成的。


3. 引言
现代生成式人工智能(AI)有望为每个人提供一个用于创建视觉内容的协作助手。这一助手能够将简单的输入(如文本提示)转化为具有生产质量的视觉体验。如今,这些助手通常依赖于一个底层基础AI模型,该模型在大量广泛且多模态的数据上进行训练,然后针对执行特定的下游辅助任务进行微调。最近,跨越文本、图像、音频和视频领域的基础模型已展现出卓越的推理和生成能力。
在Roblox,我们的目标是构建一个3D智能的基础模型。我们设想该模型将成为多种协作助手的基石,这些助手将帮助开发者从创建单个3D对象(例如,制作带翅膀的摩托车),到完整的3D场景布局(例如,创建未来风格的云之城),再到带骨骼的角色化身(例如,生成能够进行墙壁跳跃的外星忍者),以及描述物体行为、交互和游戏逻辑的脚本(例如,当玩家靠近并携带金钥匙时让门打开),从而生产Roblox体验的所有方面。我们相信,为3D推理和生成构建这样一个基础模型,提出了三个核心设计要求。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。
• 从稀疏、多模态数据中联合学习。适合训练的现成3D体验数据量远低于可用于训练文本、图像或视频模型的数据量。但3D数据是多模态的(例如,几何网格、构造实体几何(CSG)部件、布局、纹理、骨骼绑定、编程脚本),且模态之间密切相关(例如,物体在场景中的纹理和位置通常与其形状密切相关)。因此,我们的模型应联合学习训练数据中所有可用的模态。
• 通过自回归模型处理无界输入/输出大小。3D体验的大小可能差异巨大,例如,包含少数静态对象的微观场景(例如,带有一张餐桌和几把椅子的房间),到具有交互式门和电梯的多公寓建筑,再到具有交互车辆和非玩家角色的大规模城市。为了处理这些不同规模下的输入和输出,我们的模型应具有较长的上下文长度,并实现自回归。
• 通过多模态输入/输出与人类和其他AI系统协作。人类熟悉自然语言文本、图像、草图和视频等数据模态,并应能够使用其中任何一种来表达设计意图。此外,现有的大型语言模型(LLMs),如GPT-4o,这些模型使用包括文本、程序、图像、矢量图形、场景图、视频、语音、音频等在内的大量多模态数据进行训练,可以提供关于各种主题的常识知识(即一般先验)。因此,为了使我们的模型能够与人类以及其他LLMs无缝协作,多模态数据应成为首要输入和输出数据类型。
4. 主要贡献
在本报告中,我们介绍了朝着构建3D智能基础模型迈出的第一步。具体而言,我们专注于3D形状的离散标记化,认识到几何形状将成为我们基础模型的核心数据类型。我们展示了如何使用我们的标记化方案来构建多个应用程序,包括文本到形状的生成、形状到文本的生成以及文本到场景的生成。我们还演示了这些应用程序如何与基于文本的LLM协作来执行场景分析和推理任务。我们的代码和推理模型权重可在:https://github.com/Roblox/cube 上获取。
5. 方法
如图3所示,我们的高层次架构遵循编码器-解码器设计,将输入3D网格编码为潜在表示,能够解码为隐式占用场。一个关键区别是,连续的潜在表示通过额外的向量量化过程进行离散化,由于其非可导性性质,这带来了独特的训练挑战。我们提出了两种技术,即随机梯度捷径和自监督潜在空间正则化,以解决VO训练挑战。另一个架构改进是使用相位调制位置编码,这提高了感知器基变换器在交叉注意力层中消除空间上不同点歧义的能力。这些架构变化使我们能够训练一个形状分词器,它能够忠实地捕捉各种形状,同时产生适合作为训练基于分词的混合模态基础模型的新模态的离散分词。

6. 实验结果
形状标记化只是我们设想中的统一基础模型的一个组件,但我们已经发现它是几何数据的有效表示。我们已经开始使用形状标记作为核心几何表示来开发各种应用程序。这些应用程序包括文本到形状的生成、形状到文本的生成和文本到场景的生成。我们简要说明了每个应用程序如何利用我们的形状标记化方案,并展示了它们如何帮助用户开发3D体验。
文本到形状的生成
我们的文本到形状的应用程序允许用户将形状的文本描述转换为三角形网格模型,该模型可作为3D体验的一个元素。
架构。我们的文本到形状的架构是一个类似于GPT-2的仅解码器Transformer。我们将形状标记化为离散标记,并使用Transformer在文本条件的作用下生成形状标记。具体而言,我们使用预训练的CLIP文本编码器对输入文本提示进行编码,并利用双流注意力将文本条件注入Transformer模型,以自回归的方式输出形状标记。我们还将无分类器指导(Classifier-free Guidance)纳入我们的GPT训练和推理管道。在训练期间,我们随机丢弃文本条件,并在10%的时间内用空字符串替换它。

训练数据。训练我们的文本到形状的应用程序需要文本提示及其对应的3D形状的配对示例。对于用于训练形状标记化器的150万个资产中的每一个,我们渲染多个视图,并使用GPT-4o提供不同长度的说明文字。
网格提取。我们使用移动立方体算法从占用字段中提取等值面,以及基于二次误差的内部网格简化算法,将网格简化为所需数量的面。最后,我们应用一个后处理步骤,从输出网格中移除小的断开组件(即浮动伪影)。
结果。我们在图8中展示了一组代表性的文本到形状的生成结果。我们的文本到形状模型能够生成一组多样化的3D网格,捕捉到锐边、光滑表面和复杂结构。这些网格使用我们的离散形状标记生成,其视觉质量已接近使用基于校正流Transformer和连续潜在变量的近期方法生成的结果。虽然我们的方法的一个优点是能够轻松支持多模态标记,但全面了解不同方法的相对优势是未来工作的一个领域。

形状到文本的生成
我们的形状到文本的应用程序为输入的3D形状生成描述性的自然语言说明。这些文本说明旨在捕获3D形状信息,以便它们可以被反馈给我们的文本到形状的应用程序以产生相应的3D模型。并且,这些文本说明使我们能够构建能够无缝地与现有LLMs协作以利用其常识知识和推理能力的AI工具。
我们的架构受到最近关于视觉语言模型(如LLaVA)的工作的启发。为了在视觉语言模型中感知视觉信号,通常使用预训练的开放式视觉编码器(如CLIP)将视觉输入编码到语言解码器的输入空间中。在我们的情况下,我们使用形状标记化器对3D形状输入进行编码,并将形状标记注入预训练的仅解码器Transformer中,其中包含一个两层的多层感知器(MLP)潜在投影层。对于预训练的LLM主干,我们选择了InternVL 2.5-2B中的语言模型,这是一个在大规模图像-文本数据上预训练的多模态大型语言模型。我们选择该主干是因为其在多种多模态基准测试中表现出色。
我们的架构设计遵循标准的多模态学习实践,并证明了我们的形状标记化器可以适应并应用于标准的多模态设置中。

训练。由于形状标记化器仅在形状数据集上进行训练,因此形状潜在空间可能与语言Transformer的潜在空间不同。遵循LLaVA(Liu等人,2023)的训练方案,我们采用了一个两阶段的训练管道。在第一阶段,仅训练潜在投影层,以使形状特征与预训练Transformer的文本特征对齐。在第二阶段,我们联合微调潜在投影层和语言Transformer的权重,以更好地使形状特征与文本特征对齐。在整个训练过程中,我们保持形状标记化器冻结。与LLaVA类似,我们使用下一个标记预测损失来训练模型,并且仅将损失应用于文本输出序列。
实现细节。我们使用为文本到形状生成开发的相同数据集。在数据集中,我们有各种长度的说明文字。为了控制形状到文本生成中的输出说明文字长度,我们在输入形状标记后附加一个简短的文本指令,以指示所需的输出说明文字长度。具体而言,我们使用“caption short:”、“caption medium:”和“caption long:”分别表示少于25个标记、少于75个标记和大于75个标记的说明文字长度。
结果。图9显示了我们的形状到文本模型生成的各种长度的说明文字。在生成简短说明文字时,模型仅提供关于输入形状的类别信息(例如,一只卡通狗)。随着说明文字长度的增加,模型描述了物体的不同部分(例如,圆润的身体、松软的耳朵等)和风格(例如,俏皮、卡通般的外观、大而富有表现力的眼睛等)。
形状循环一致性。我们的目标是在我们的形状到文本模型生成的自然语言说明文字中捕获3D形状的概念。图10展示了从形状输入开始,使用我们的形状到文本模型生成相应的文本说明文字,然后将说明文字作为输入到我们的文本到形状模型中以重新生成形状的示例。结果表明,我们的形状到文本模型生成的说明文字捕获了足够的3D信息,使我们的文本到形状模型能够再现整体的3D形状,尽管会丢失一些高频几何细节。我们假设形状循环一致性源于形状到文本和文本到形状模型使用了相同的形状标记。

7. 总结
我们已经展示了迈向我们的目标的第一步,即开发一个能够进行3D生成和推理的基础模型。具体来说,我们已经展示了我们的形状标记化方案如何使各种生成3D应用成为可能。展望未来,要实现一个统一的3D基础模型的完整愿景,需要解决多个挑战,该模型能够协助人类开发者构建Roblox体验的各个方面。在此,我们概述了实现这一愿景的一些未来步骤。
网格和零件的混合生成。我们的文本到形状应用程序可以从文本提示生成三维几何网格。但是Roblox平台还支持通过构造性立体几何(CSG)操作对基本零件(如圆柱体、立方体、球体等)进行三维造型。这些基于零件的对象提供了一种紧凑的表示方式,可以在各种边缘设备上高效地呈现。它们还提供了独特的“块状”视觉风格,这是许多Roblox体验的标志。我们正在探索如何将我们的形状标记纳入自回归GPT模型,该模型可以生成仅零件的CSG形状或结合CSG和网格的形状。
角色化身生成。化身是Roblox体验中玩家的主要代表。对于许多玩家来说,他们的第一个创作体验涉及设计或自定义化身。当玩家与场景交互时,化身会移动和动画化,因此基于AI的化身生成必须产生可绑定几何体:详细的头部网格,可动画化特征(如眼睛和嘴巴)的单独网格,身体网格以及叠加在身体上的服装网格。
4D行为生成。在Roblox体验中的物体可以通过动画和/或程序脚本进行操纵,以根据玩家与它们交互的方式以不同的方式行为。例如,一个3D汽车型可能被操纵,使得转动方向盘可以旋转车轮。一个门可能被脚本为当玩家靠近时滑动打开。我们将这种操纵和/或脚本的运动称为4D行为,我们的目标是构建基于AI的4D行为生成器。
我们对3D智能统一基础模型的愿景旨在使所有背景的用户都能轻松创建完整的3D体验。生成式AI工具可以在创建过程的每个步骤中帮助用户,这需要这样一个基础模型,能够推理3D形状、物体行为、玩家交互和游戏逻辑。我们迄今为止的工作已经朝着这些推理目标中的第一个迈出了第一步。随着我们开源模型的发布我们希望吸引研究社区中的其他人与我们一起解决这些目标。’
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~