#今日论文推荐#苹果发布新模型GAUDI：只用文字就能生成无限制3D模型

最新推荐文章于 2024-08-31 09:52:50 发布

wwwsxn

最新推荐文章于 2024-08-31 09:52:50 发布

阅读量242

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62f12b947cb68b460ffe9574

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

苹果推出GAUDI模型，该模型能根据文本提示生成复杂的3D场景，解决了从文本到3D场景的自由生成问题。GAUDI采用优化的隐表征学习，实现无条件和有条件生成，提高了3D场景的可用性和真实性。模型以著名建筑师高迪命名，体现了创新与现实世界的融合。

摘要由CSDN通过智能技术生成

#今日论文推荐#苹果发布新模型GAUDI：只用文字就能生成无限制3D模型

谷歌在2021年末提出过Dream Fields，尝试结合NeRF生成3D视图与OpenAI的CLIP模型的能力，直接从文本中生成物体的3D模型。
不过谷歌的Dream Fields主要用于生成单个对象，将生成式AI扩展到完全不受约束的3D场景仍然是一个尚未解决的问题。
造成这种情况的其中一个原因可能是摄像机位置的限制：虽然对于单个对象，每个可能的合理摄像机位置都可以映射到一个dome，但在3D场景中，这些摄像机位置受到对象和墙壁等障碍物的限制。如果在场景生成期间不考虑这些，则生成的3D场景的可用性就会大大降低。
最近苹果披露了他们最新的用于生成沉浸式3D场景的神经网络架构GAUDI，可以根据文字提示创建3D场景。

GAUDI是一个能够捕捉复杂而真实的三维场景分布的生成模型，可以从移动的摄像机中进行沉浸式渲染，采用了一种可扩展但强大的方法来解决这个具有挑战性的问题。
研究人员首先优化一个隐表征，将辐射场和摄像机的位置分开，然后将其用于学习生成模型，从而能够以无条件和有条件的方式生成三维场景。
GAUDI在多个数据集的无条件生成设置中取得了sota的性能，并允许在给定条件变量（如稀疏的图像观测或描述场景的文本）的情况下有条件地生成三维场景。
模型的名字来自西班牙著名建筑大师Antoni Gaudi，以其复杂、新颖、独树一帜、个人色彩强烈的建筑作品知名，他被誉为「上帝的建筑师」。他有一句名言：创造会通过人类的媒介不断地传承下去！

论文题目：GAUDI: A Neural Architect for Immersive 3D Scene Generation
详细解读：https://www.aminer.cn/research_report/62f12b947cb68b460ffe9574https://www.aminer.cn/research_report/62f12b947cb68b460ffe9574
AMiner链接：https://www.aminer.cn/?f=cs