获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读
引言:探索逆向图形学的新视角
逆向图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,它涉及将图像转化为物理变量的任务,这些变量在渲染时能够再现观察到的场景。这一过程需要将图像解构为其构成元素,如场景中对象的形状、颜色和材料属性,这需要对环境有一个全面的理解。然而,现有的精心设计的方法在跨领域泛化方面存在限制。受到大型语言模型(LLMs)在新环境中进行零样本泛化能力的启发,我们探索了利用这些模型中编码的广泛世界知识来解决逆向图形学问题的可能性。本研究提出了一个以LLM为中心的逆向图形学框架——Inverse-Graphics Large Language Model(IG-LLM),该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。我们的分析开启了利用LLMs的视觉知识进行精确空间推理的新可能性,这些都将在后续章节中详细探讨。
论文基本信息
标题:Re-Thinking Inverse Graphics With Large Language Models
作者:
- Peter Kulits (kulits@tue.mpg.de)
- Haiwen Feng (hfeng@tue.mpg.de)
- Weiyang Liu (wl396@cam.ac.uk)
- Victoria Abrevaya (vabrevaya@tue.mpg.de)
- Michael J. Black (black@tue.mpg.de)