智源x复旦 | Argus-3D形状生成大模型,多模态生成3D形状

令人心潮澎湃的游戏装备、栩栩如生的VR与AR视界、充满惊奇想象的艺术与设计创作……

伴随虚拟与现实边界的日益融合,三维形状生成模型的研究备受关注。不同于当前主流大语言模型,三维形状生成比一维文本更加复杂,任务难度也更高。

近日,智源研究院与复旦大学联合带来 Argus-3D 形状生成大模型,36亿参数规模,相比 OpenAI 的 Shape-E 等模型亦表现出色。目前已部分开源。

论文地址:https://arxiv.org/abs/2306.11510

项目地址:https://argus-3d.github.io


 Argus-3D 可以利用图片、文字等多模态条件做控制,生成多样化3D形状,并可添加纹理与上色,辅助提升游戏开发等领域的3D建模工作效率。

 

生成多样性更佳,结构与细节表现精准

Argus-3D模型可根据输入的类别信息生成3D形状,目前支持55种常见物体类别。对于样本多的物体类别,生成效果更好,如在游戏、设计等领域常见的飞机、椅子、汽车和桌子等。

通过增大模型参数,Argus-3D模型在多种类别上取得了更好的效果。

生成多样性方面,Argus-3D 可生成丰富的物体形状。

 

 

  

 

基于文本的3D形状生成能力方面,Argus-3D 模型具有更加优秀地生成质量表现,尤其是精准的结构与细节表达。

Shap-E 模型更关注纹理渲染,生成的 3D形状具有丰富色彩,但在结构完整性上,部分细节处碎片化严重。Argus-3D 模型更好地学习到了三维特征 ,能生成结构完整、轮廓流畅的3D形状,并可通过添加纹理,适配多样化的任务需求。

可通过算法添加纹理或由设计师自由着色。

模型可以生成相对复杂的结构和与精细的结构。放大下图可见椅子的物理结构得以完整呈现,拐角转折关系十分清晰,即使没有纹理颜色,也可通过外形表现出座椅材质。

对于三维物体的生成“无死角”,每个空间侧面的生成都与现实结构相符,如下图中的桌子,表面十分平滑,而底面则有着丰富的空间结构。

 

研究方法

支持多模态输入

36亿参数,Argus-3D是当前最大3D生成模型,可以根据类别标签、文本、图像等多模态信息进行形状生成。

在训练阶段,Argus-3D采用成对的图像-形状输入。在推理阶段,研究团队利用CLIP的多模态能力,用从CLIP中提取的文本特征代取代图像特征。这一尝试让Argus-3D跨过了传统输入源的界限,无缝地支持多种输入模式。

输入图像生成3D形状网格。

利用 transformer 进行多模式条件生成

近期 3D 生成模型多基于扩散模型,扩散模型在生成分辨率上存在瓶颈。而transformer能通过增大模型来获得性能提升,这已在 LLM 上得到了验证。研究团队尝试将 transformer 放大并应用在3D生成上,利用自回归模型来获得更强的 3D形状生成能力。

自回归模型在训练过程中稳定性较好,然而,在三维形状生成领域,由于缺乏有效的表示方法,大多数自回归模型难以生成结构复杂、细节丰富的三维形状。为此,研究团队改编了自动回归模型,并扩大了可学习参数的规模。

如何应对 transformer 体系结构的计算需求也是一个难点。对此,研究团队探索了更高效的 transformer 架构以及新颖的3D形状数据表示。基于 transformer 的模型具备高度的可扩展性,使复杂形状更高效建模。

引入潜在表示学习方法,降低计算复杂度,提高分辨率和多样性

现有3D形状生成模型在实际应用中的一个主要限制是难生成高分辨率的3D形状,细节不足、缺乏纹理细粒会影响视觉保真度和真实感。此外,这些模型缺乏多样性,通常只能生成有限数量的相似形状,这限制了模型在实际任务中的可用性。

Argus-3D通过提高生成的 3D 形状的质量和多样性来克服现有方法的局限性。Argus-3D模型将三平面特征作为潜在表示,有效降低了计算复杂度。三维数据随分辨率增大,存储资源和计算资源呈立方增长。研究团队使用三个正交投影的平面表示物体的特征,将计算复杂度从立方降低到平方,提高了生成形状的分辨率。

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值