TripoSR重磅开源!最先进的3D生成模型!不到0.5秒重建高质量的3D

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

fd35e01aabb4ddd6aba0164fb5e4d336.jpeg

允中 发自 凹非寺
转载自:量子位(QbitAI)

无需GPU即可部署,0.5秒就能通过单张图片生成3D模型。

大语言模型风暴再起的一晚,3D生成领域也有新开源模型引发关注。

二月底,Stability AI悄然换将,新任CTO Christian是图形学和机器视觉大佬。上任不到五天,立刻官宣为开源社区带来重磅炸弹:和华人团队VAST联合推出3D生成模型TripoSR

9bb1012e12a708365e8c9ee5fc1873c6.png

只需短短的0.5秒,TripoSR就能把单张图片转化为一个几何结构完整、材质纹理清晰的3D模型,无需任何prompt和专业知识,甚至不需要依赖GPU。

4254cee5ab2df2ef040128ad18f6a309.png

a31f23f26f0024a49e5e75403ba83363.gif
图源Stability AI官网

可以看出,不管是人物角色、家装建筑、食物摆件,TripoSR都能理解和还原。

2ab620da7ae79f7373ae4930d8927d85.png
图源TripoSR技术报告

TripoSR的灵感来源于2023年11月Adobe提出的LRM。

和Sora作为视频生成模型使用的Transformer架构相似,TripoSR和LRM都基于Transformer架构。

这种方式将图像生成3D模型的任务巧妙地理解为一场跨维度的语言翻译。想象一下,每一张输入的图像都是一种独特的语言,而模型的任务,就是将这种图像语言翻译成另一种三维的表达——3D模型语言。

在这场翻译中,图像语言的“词汇”由输入图像精心切割成的一块块小方块,类比于视频语言的“词汇”是patch,而3D模型语言的“词汇”则是由“三平面(triplane)”构成的三维空间中的小方块。这个方法的核心就在于它能够将这些图像语言的“词汇”一一对应地转化为3D模型语言的“词汇”,从而将二维的图像转化为三维的模型。

在transformer架构的强力推动下,LRM在超过百万级别的公开三维数据集上接受了训练,这标志着它与以往那些仅限于特定类别的研究工作划清了界限。这种对任意用户输入的广泛适应性和超高的运行效率赢得了赞誉在学术界和工业界掀起了一阵热潮。

尽管如此,LRM的代码和模型并未对外开放,加之其训练成本之高——需要128块A100 GPU连续运行一周——这使得许多资源有限的研究团队望而却步,从而在一定程度上限制了这项技术向更广泛领域的推广。

或许还有人有印象Stability AI此前开源的3D项目Stable Zero123。

这个项目基于另一个受到广泛关注的开源项目threestudio,尽管这个集成尝试取得了不少进展,但由于其依赖的技术(比如score distillation sampling)需要较长的优化和计算时间,使得生成一个3D模型既缓慢又资源消耗巨大,这个问题仍未能被充分解决。

e970f25ec884cde69c62242fd4f91b96.png

直至TripoSR的出现,学术界和开源界一直缺少一个开放、快速、且具备强大泛化能力的3D生成基础模型和框架。

该模型基于LRM的原始算法,通过精细筛选和渲染的Objaverse数据集子集以及一系列的模型和训练改进,显著提高了从有限训练数据中泛化的能力,同时也增强了3D重建的保真度。

d3499fd257d9748a2fcc5fffda2beb3d.png
与其他算法对比

因此,可以说Tripo AI和Stability AI联合推出的首个LRM高质量开源实现——TripoSR极大地填补了3D生成式人工智能领域的一个关键空白。

b08d658855d5ff86e863b08c3d1f617e.png
性能表现:F-Score(越高越好)与推理时间(越低越好)的关系

作为Stable Diffusion背后公司,Stability AI无需多做介绍,那么此番与Stability AI携手的Tripo AI又是何许人也?

根据公开信息,Tripo AI背后是一个叫作VAST AI Research的新锐3D研究机构。

自2023年底相继开源了Wonder3D、CSD、TGS等工作的代码和权重,获得了开源社区的广泛好评。

Tripo是VAST在2023年12月推出的通用3D生成模型。能实现8秒内通过文字或图片生成3D网格模型,并通过5分钟进行精细化生成,生成模型质量在几何和材质层面都接近手工水平。

根据其披露的运营动态,目前已上线模型生成之外,风格化、自动骨骼绑定等更多3D生成相关功能。

你觉得2024年会是3D生成领域爆发的一年吗?

参考链接:
[1]TripoSR模型代码:https://github.com/VAST-AI-Research/TripoSR
[2]TripoSR模型权重:https://huggingface.co/stabilityai/TripoSR
[3]TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR
[4]https://stability.ai/news/triposr-3d-generation

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值