单图0.5秒生成3D模型!Stability AI&华人团队VAST出品

允中 发自 凹非寺
量子位 | 公众号 QbitAI

无需GPU即可部署,0.5秒就能通过单张图片生成3D模型。

大语言模型风暴再起的一晚,3D生成领域也有新开源模型引发关注。

二月底,Stability AI悄然换将,新任CTO Christian是图形学和机器视觉大佬。上任不到五天,立刻官宣为开源社区带来重磅炸弹:和华人团队VAST联合推出3D生成模型TripoSR

02a39adfafd9be8174b54659c16543ac.png

只需短短的0.5秒,TripoSR就能把单张图片转化为一个几何结构完整、材质纹理清晰的3D模型,无需任何prompt和专业知识,甚至不需要依赖GPU。

737e049c089bacf7709504646e108afc.png

7ee074b0f0c70035b41fe4471132a540.gif
图源Stability AI官网

可以看出,不管是人物角色、家装建筑、食物摆件,TripoSR都能理解和还原。

1aa63b2c3d0f12e6a63594534b8c449b.png
图源TripoSR技术报告

TripoSR的灵感来源于2023年11月Adobe提出的LRM。

和Sora作为视频生成模型使用的Transformer架构相似,TripoSR和LRM都基于Transformer架构。

这种方式将图像生成3D模型的任务巧妙地理解为一场跨维度的语言翻译。想象一下,每一张输入的图像都是一种独特的语言,而模型的任务,就是将这种图像语言翻译成另一种三维的表达——3D模型语言。

在这场翻译中,图像语言的“词汇”由输入图像精心切割成的一块块小方块,类比于视频语言的“词汇”是patch,而3D模型语言的“词汇”则是由“三平面(triplane)”构成的三维空间中的小方块。这个方法的核心就在于它能够将这些图像语言的“词汇”一一对应地转化为3D模型语言的“词汇”,从而将二维的图像转化为三维的模型。

在transformer架构的强力推动下,LRM在超过百万级别的公开三维数据集上接受了训练,这标志着它与以往那些仅限于特定类别的研究工作划清了界限。这种对任意用户输入的广泛适应性和超高的运行效率赢得了赞誉在学术界和工业界掀起了一阵热潮。

尽管如此,LRM的代码和模型并未对外开放,加之其训练成本之高——需要128块A100 GPU连续运行一周——这使得许多资源有限的研究团队望而却步,从而在一定程度上限制了这项技术向更广泛领域的推广。

或许还有人有印象Stability AI此前开源的3D项目Stable Zero123。

这个项目基于另一个受到广泛关注的开源项目threestudio,尽管这个集成尝试取得了不少进展,但由于其依赖的技术(比如score distillation sampling)需要较长的优化和计算时间,使得生成一个3D模型既缓慢又资源消耗巨大,这个问题仍未能被充分解决。

79516d84f1dc1d0fa361549ffe261c81.png

直至TripoSR的出现,学术界和开源界一直缺少一个开放、快速、且具备强大泛化能力的3D生成基础模型和框架。

该模型基于LRM的原始算法,通过精细筛选和渲染的Objaverse数据集子集以及一系列的模型和训练改进,显著提高了从有限训练数据中泛化的能力,同时也增强了3D重建的保真度。

68361e23cf9bd8ac401a5dda2088ea47.png
与其他算法对比

因此,可以说Tripo AI和Stability AI联合推出的首个LRM高质量开源实现——TripoSR极大地填补了3D生成式人工智能领域的一个关键空白。

f97d40daeb472f3e5dadb9b3027935c8.png
性能表现:F-Score(越高越好)与推理时间(越低越好)的关系

作为Stable Diffusion背后公司,Stability AI无需多做介绍,那么此番与Stability AI携手的Tripo AI又是何许人也?

根据公开信息,Tripo AI背后是一个叫作VAST AI Research的新锐3D研究机构。

自2023年底相继开源了Wonder3D、CSD、TGS等工作的代码和权重,获得了开源社区的广泛好评。

Tripo是VAST在2023年12月推出的通用3D生成模型。能实现8秒内通过文字或图片生成3D网格模型,并通过5分钟进行精细化生成,生成模型质量在几何和材质层面都接近手工水平。

根据其披露的运营动态,目前已上线模型生成之外,风格化、自动骨骼绑定等更多3D生成相关功能。

你觉得2024年会是3D生成领域爆发的一年吗?

参考链接:
[1]TripoSR模型代码:https://github.com/VAST-AI-Research/TripoSR
[2]TripoSR模型权重:https://huggingface.co/stabilityai/TripoSR
[3]TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR
[4]https://stability.ai/news/triposr-3d-generation

*本文系量子位获授权刊载,观点仅为作者所有。

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选!

评选报名截至2024年3月31日 65fe2db0a522a3c7230ad24abd2d1faa.png

e57b8ab6bf84cd2738b484bbc0032738.png

中国AIGC产业峰会同步火热筹备中,了解更多请戳:Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉

点这里👇关注我,记得标星噢

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值