#今日论文推荐#苹果发布新模型GAUDI:只用文字就能生成无限制3D模型

苹果推出GAUDI模型,该模型能根据文本提示生成复杂的3D场景,解决了从文本到3D场景的自由生成问题。GAUDI采用优化的隐表征学习,实现无条件和有条件生成,提高了3D场景的可用性和真实性。模型以著名建筑师高迪命名,体现了创新与现实世界的融合。
摘要由CSDN通过智能技术生成

#今日论文推荐#苹果发布新模型GAUDI:只用文字就能生成无限制3D模型

谷歌在2021年末提出过Dream Fields,尝试结合NeRF生成3D视图与OpenAI的CLIP模型的能力,直接从文本中生成物体的3D模型。
不过谷歌的Dream Fields主要用于生成单个对象,将生成式AI扩展到完全不受约束的3D场景仍然是一个尚未解决的问题。
造成这种情况的其中一个原因可能是摄像机位置的限制:虽然对于单个对象,每个可能的合理摄像机位置都可以映射到一个dome,但在3D场景中,这些摄像机位置受到对象和墙壁等障碍物的限制。如果在场景生成期间不考虑这些,则生成的3D场景的可用性就会大大降低。
最近苹果披露了他们最新的用于生成沉浸式3D场景的神经网络架构GAUDI,可以根据文字提示创建3D场景。

GAUDI是一个能够捕捉复杂而真实的三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用了一种可扩展但强大的方法来解决这个具有挑战性的问题。
研究人员首先优化一个隐表征,将辐射场和摄像机的位置分开,然后将其用于学习生成模型,从而能够以无条件和有条件的方式生成三维场景。
GAUDI在多个数据集的无条件生成设置中取得了sota的性能,并允许在给定条件变量(如稀疏的图像观测或描述场景的文本)的情况下有条件地生成三维场景。
模型的名字来自西班牙著名建筑大师Antoni Gaudi,以其复杂、新颖、独树一帜、个人色彩强烈的建筑作品知名,他被誉为「上帝的建筑师」。他有一句名言:创造会通过人类的媒介不断地传承下去!

论文题目:GAUDI: A Neural Architect for Immersive 3D Scene Generation
详细解读:https://www.aminer.cn/research_report/62f12b947cb68b460ffe9574icon-default.png?t=M666https://www.aminer.cn/research_report/62f12b947cb68b460ffe9574
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值