DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!
引言:探索逆图形学的新视角
逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,它涉及将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一任务要求将图像解构为其构成元素,例如产生图像的3D场景中的对象的形状、颜色和材料属性。这种需求限制了现有方法在跨领域时的泛化能力。受到大型语言模型(LLMs)在新环境中的零样本泛化能力的启发,我们探索了利用这些模型中编码的广泛世界知识来解决逆图形问题的可能性。本文提出了一个以LLM为中心的逆图形框架——逆图形大语言模型(Inverse-Graphics Large Language Model, IG-LLM),该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。通过我们的研究,我们展示了LLMs在逆图形学中的潜力,通过下一个令牌的预测来促进逆图形学,而无需使用图像空间的监督。我们的分析为精确的空间推理开辟了新的可能性,这种推理利用了LLMs的视觉知识。
论文基本信息
标题: Re-Thinking Inverse Graphics With Large Language Models
作者: Peter Kulits, Haiwen Feng, Weiyang Liu, Victoria Abrevaya, Michael J. Black
机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; University of Cambridge
论文链接: https://arxiv.org/pdf/2404.15228.pdf
逆图形学的定义与历史背景
逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,其任务是将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一过程涉及到将图像解构为其构成元素,如场景中物体的形状、颜色和材料属性等。逆图形学的概念可以追溯到至少1974年的Baumgart,并在后续的研究中不断发展,如Kersten & Yuille (1996) 和 Yuille