风口预警!Meta一分钟文本转3D模型炸场,游戏规则已改变,赛道着火了

西风 发自 凹非寺
量子位 | 公众号 QbitAI

Meta放大招!发布3D生成最新成果——Meta 3D Gen

号称1分钟内即可文本端到端高质量转3D,包括高质量纹理和基于PBR材质(基于物理的渲染)贴图的3D Mesh。

10e2435bdc668084fbcc04b08277bf9f.gif

支持修改已有的3D对象/模型的纹理。

例如,编织风:

eb34f503f92adb1246341b23fb9db0ca.gif

像素风:

c94a38ad58f23707740905b8cd5e514a.gif

暗黑恐怖风:

3560373f4bc6d478f7845c36b4e3aacc.gif

单拎出来一只金属哈巴修狗,毛发纹理等各种细节拉满:

b2f944458d304f466821d400ebc37972.gif

搭配其它工具装上骨架让3D模型动起来,效果也可以用“精细”两字形容:

5a9e29cd0b0a0a06547371d9d3d3ed4c.gif

有网友看到此效果直呼“改变行业游戏规则”、“改变工作流程”。

575df3aa5894df63ed18fb9ef22728fa.png

还有不少网友认为生成的模型可以直接3D打印了:

c7be310d4eb9f5e8a522281af023c30f.png

不过,这次Meta 3D Gen的发布木有代码,木有Demo可玩。

与效果一同发布的,是一份技术报告以及两篇论文,介绍了Meta 3D Gen背后用于文本到3D生成和文本到纹理生成的方法。

3D对象生成器+纹理生成器

翻看技术报告,原来Meta 3D Gen是一种组合系统,基于Meta另外两项研究,即同时发布的两篇论文:Meta 3D AssetGenMeta 3D TextureGen

c589934e4509e89135347d8f3d3e29a8.png
a8fca4918ee1ca8ead02756d44fde57f.png

Meta 3D AssetGen用于文本到3D对象的生成(第一阶段),Meta 3D TextureGen用于文本到纹理的生成(第二阶段),两者是Meta 3D Gen的关键组件。

d0f923cbf2dddcf4eb20a8c3aff4a53e.png

AssetGen负责从文本描述生成完整的3D对象,其工作流程大致为:

1)用一个神经网络根据文本描述生成多个2D视图;
2)使用另一个神经网络从这些2D视图重建3D Mesh和初始纹理;
3)通过融合重投影的纹理来优化初始纹理。

TextureGen负责为给定的3D对象生成纹理。它接收一个3D对象(包含形状和UV坐标信息等)和一个文本描述作为输入,工作流程大致为:

1)使用一个神经网络生成这个3D对象的多个2D视图;
2)将这些2D视图重新投影到对应的纹理图像上;
3)另一个神经网络将这些纹理和原始文本描述结合,生成一个完整的UV纹理;
4)可以选择使用一个超分辨率网络来提高纹理的分辨率。

值得一提的是,TextureGen中的纹理融合和增强网络基于3D艺术家提供的“真实”UV图进行训练,与AssetGen生成的自动提取的UV图大有不同。

而Meta 3D Gen集成了这两种方法,所以整体流程是:

首先使用AssetGen生成初始的3D形状和UV映射。然后,使用TextureGen的第一个网络,基于这个3D形状生成更高质量的2D视图。接着,使用TextureGen的第二个网络,从这些高质量视图生成统一的UV纹理。最后,使用AssetGen的纹理优化网络进行最终的纹理融合和增强。

5fb2e8ee2c8c8473fc02de1b72c62f57.png

以下是在Meta 3D Gen在第一阶段(左)和第二阶段(右)后的视觉对比:

36cecc664b151a4b4170652652f0331f.png

方法细节,感兴趣的家人们可以查看技术报告和论文,重点来看效果测试。

404个文本提示评估

基准测试部分,Meta 3D Gen的比较对象包括:CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5、Meshy v3和一个第三方文本转3D生成器。

定量比较方面,Meta使用了404个来自DreamFusion的不同文本提示(分为物体、角色和组合场景三类,难度由低到高)让模型进行3D生成。

然后让普通用户和专业3D艺术家对模型在不同测试类别中的表现进行评估和打分,评估指标包括提示保真度、整体视觉质量、几何质量和纹理质量

评估针对每个模型单独进行或通过随机A/B测试来比较不同模型的表现。

根据Meta的测试结果,首先在生成时间方面,Meta 3D Gen仅需1分钟,超越所有其它方法(3分钟到1小时不等):

97337919808349465e8d3b45e4675aea.png

文本提示保真度,即模型的生成与文本prompt的符合度,Meta 3D Gen和其它模型的比较结果如下:

e71afcb276bfae45c09adb58ba8e3e6d.png

整体Meta 3D Gen效果最佳,Tripo3D、Third-part T23D generator与其相差不大,CSM Cube 2.0、Rodin Gen-1 V0.5稍显逊色。

值得一提的是,用于对比的工业基线中,Tripo3D来自国内玩家VAST,Meshy则是胡渊鸣在太极图形之后创办的独立新品牌

在难度最高的组合类场景生成中,Tripo3D排名第二,与Meta 3D Gen相近,但却在最简单的物体生成上表现不如Meta,拉低了整体评分。

A/B测试方面,主要是为了比较Meta 3D Gen和那些同时生成纹理和使用PBR材料的基准模型。所有用户、仅专业3D艺术家的评估结果分别如下,Meta 3D Gen在大多数指标上表现优于竞争者:

853c98fe56ec29987743b1856ebd0ed2.png

此外,Meta还分析了不同3D生成模型在处理不同复杂度的场景时的性能,下图是Meta 3D Gen与基线方法相比的胜率。

cf1f71159bda72c1a333d556fe9cc5c5.png

纵坐标是Meta win rate,低于50%说明对比方法比Meta好,折线越低方法越好。

结果显示,随着场景复杂度增加,例如从单一对象过渡到包含多个角色和元素的复合场景生成,Meta 3DGen的表现开始显著优于其它模型。

接下来再看定性比较。

相同提示词,不同模型文本提示保真度对比是这样婶儿的:

84b49b4607131142917d1f1facad3669.png

除了Meta 3D Gen,Tripo3D表现也不错,比如第一个生成带有“GenAI”logo的金属羊驼的例子,Meta 3D Gen虽然在logo生成上表现很好,但腿部生成明显有缺陷,而Tripo3D的腿部生成更胜一筹,且纹理细节也很好。第二个寿司测试,CSM则表现优异。

第三个“半兽人在砧板上锻造锤子”的例子,Tripo3D和Meta各有优势。Tripo3D纹理和几何细节更丰富、orc更保真、“锻造锤子”也展现出来了;Meta的砧板相对好些,但整体纹理细节差些。

其它几个模型的结果语义丢失严重。

此外,针对纹理的对比结果如下,在下面的这张图中,Meta 3D Gen的纹理细节处理的很细致:

6600a33028595641f5024bf9f4137437.png

3D生成赛道真热闹

Meta 3D Gen的发布,无疑给持续升温的3D生成赛道又添了一把火。

在对比测试中,也不乏国内玩家的身影,比如Tripo 3D就是由AI初创公司VAST在今年初推出的3D生成大模型。

VAST创始人兼CEO为宋亚宸,此前在商汤负责AIGC技术在动画及游戏等行业实际落地,也曾参与创立AI独角兽Minimax。CTO梁鼎是商汤的通用模型负责人、首席科学家曹炎培曾在腾讯AI Lab领导AIGC 3D方向的研发工作。

此外,Meshy模型也是由国内玩家打造。

Meshy联合创始人兼CEO是计算机图形学知名学者胡渊鸣,胡渊鸣毕业于清华大学姚班,也是MIT博士、太极(TaiChi)编程语言作者。

说回Meta 3D Gen,虽然根据Meta的技术报告,Meta 3D Gen的表现在很多方面超过了基准模型,不过也有人对此测试结果表示存疑。

首先在生成时间上,就有网友表示给CSM Cube 2.0标的时间不准确:

7fbbe03244d5ddce1efaecc5bdfecca9.png

据量子位测试,其实Tripo3D最新Web版生成时间也缩短了,Stage1是10秒左右,Stage2现在只需要2分钟

e87d846f0095f0f5720481dca2db5723.png

据量子位在Tripo Discord beta频道测试,Tripo3D新版几何质量也有了进一步提升:

e3c48fa5a7b5181885857106d1f3e2d8.png

Tripo团队发文表示更好的几何和PBR都在路上了:

d39076ed3992811e0cf8a69584669822.png

另一边,胡渊鸣也发推文表示,Meshy很快就会发布速度提升10倍的模型。

7ddfd8025b5c1855130148c675e122cd.png

Rodin团队也出面表示欢迎Meta加入3D生成赛道,未来想制定更综合和合理的3D生成评判标准。

218802eb1c1eb61574db6478d594e355.png

除此之外还有网友认为,没有Demo大家又玩不上,对于Meta 3D Gen很难评。

d4db8ed90c50b8714014fc73981fc532.png

雀食,Tripo3D、Meshy等模型都是可以玩的。

而且还不是简单玩玩,开头网友说的3D打印甚至已经落地了。

就拿Tripo3D来说,不仅在全球最大的3D素材交易网站-CG模型网已上线艺术家内测版本

a16222c16e1d9f72c53bd44c19b8633b.jpeg

而且已经和全球家用3D打印机龙头企业们达成合作,拓竹的Markerworld和Anycubic旗下的模型社区网站Makeronline等都已上线,3D打印爱好者们可以尝试起来了!

70eefa8fa357623972400cae907d4c02.jpeg
35ec5c8e4a14ac076ad65f504c8b1e5a.png

在行业探索上,Meshy之前和Snap达成合作上线了AI 3D特效,CSM则做了更多产品化的探索,上线了Cube。

1ae14b5f1dcecc0d9fd7d88e21ad6865.png

全球AI艺术家也在3D生成赛道上卷起来了,Tripo上个月做了全球第一个AI 3D全球渲染大赛,目前正在和CivitAI一起举办AI电影大赛Project Odyssey。

838e6058282a4afe68b612045676a8aa.png

这次泼天的热度算是落到3D生成赛道了。

参考链接:
[1]https://x.com/AIatMeta/status/1808157832497488201
[2]https://ai.meta.com/research/publications/meta-3d-gen/
[3]https://x.com/tripoai/status/1808427964339470445
[4]https://x.com/DeemosTech/status/1808207652188836020
[5]https://x.com/YuanmingH/status/1808352082824683818

—  —

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值