#今日论文推荐# 文字秒变3D？苹果发布最新AI生成模型GAUDI，根据文字提示创建3D场景

最新推荐文章于 2024-08-31 09:52:50 发布

wwwsxn

最新推荐文章于 2024-08-31 09:52:50 发布

阅读量226

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 文字秒变3D？苹果发布最新AI生成模型GAUDI，根据文字提示创建3D场景

继 AI 将文字变成图片后，又有 AI 可以将文字变成 3D 场景了。苹果发布新 AI 系统 GAUDI，能在室内生成 3D 场景近日，苹果 AI 团队发布最新 AI 系统 GAUDI，GAUDI 基于用于生成沉浸式 3D 场景的神经架构 NeRFs，可以根据输入的文字提示生成 3D 室内场景。
GitHub 地址：GitHub - apple/ml-gaudi
在此之前，OpenAI 的 DALL-E 2 以及谷歌的 Imagen 和 Parti 等 AI 系统都展示了将文字生成图片的能力，但生成的内容仅限于 2D 图像和图形。
2021 年年末，谷歌通过 Dream Fields 首次展示了新的 AI 系统，该系统将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。而苹果 AI 团队发布的 GAUDI 则更进一步，能够生成沉浸式 3D 场景的神经架构，并可以根据文字提示创建 3D 场景。
例如，输入“穿过走廊”或“上楼梯”，就可以看到执行这一动作的 3D 场景视频。
据了解，NeRFs 是一种主要用于 3D 模型和 3D 场景的神经存储介质，并能够从不同的相机视角进行渲染。
此前，将生成 AI 扩展到完全不受约束的 3D 场景是一个尚未解决的问题。这背后的原因之一是受限于摄像机位置：虽然对于单个对象，每个摄像机位置都可以映射到一个圆顶，但在 3D 场景中，这些摄像机位置会受到对象和墙壁等障碍物的限制。
对于这个难题，GAUDI 模型的解决方案是：相机姿态解码器对可能的相机位置进行预测，并确保输出是 3D 场景架构的有效位置。
虽然当前 GAUDI 生成的 3D 场景视频质量很低，但这也预示了 AI 在未来新的可能，或许在 AI 的下一阶段，我们可以看到更多惊喜。
GAUDI 背后的技术实现根据苹果方面的介绍，GAUDI 的目标是给定 3D 场景轨迹的经验分布时，学习得出生成模型

论文题目：GAUDI: A Neural Architect for Immersive 3D Scene Generation
详细解读：https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3https://www.aminer.cn/research_report/62ea2b7d7cb68b460ffa9fa3
AMiner链接：https://www.aminer.cn/?f=cs