解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!
在这里插入图片描述

引言:探索逆图形学的新视角

逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,它涉及将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一任务要求将图像解构为其构成元素,例如产生图像的3D场景中的对象的形状、颜色和材料属性。这种需求限制了现有方法在跨领域时的泛化能力。受到大型语言模型(LLMs)在新环境中的零样本泛化能力的启发,我们探索了利用这些模型中编码的广泛世界知识来解决逆图形问题的可能性。本文提出了一个以LLM为中心的逆图形框架——逆图形大语言模型(Inverse-Graphics Large Language Model, IG-LLM),该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。通过我们的研究,我们展示了LLMs在逆图形学中的潜力,通过下一个令牌的预测来促进逆图形学,而无需使用图像空间的监督。我们的分析为精确的空间推理开辟了新的可能性,这种推理利用了LLMs的视觉知识。

论文基本信息

标题: Re-Thinking Inverse Graphics With Large Language Models

作者: Peter Kulits, Haiwen Feng, Weiyang Liu, Victoria Abrevaya, Michael J. Black

机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; University of Cambridge

论文链接: https://arxiv.org/pdf/2404.15228.pdf

逆图形学的定义与历史背景

逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,其任务是将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一过程涉及到将图像解构为其构成元素,如场景中物体的形状、颜色和材料属性等。逆图形学的概念可以追溯到至少1974年的Baumgart,并在后续的研究中不断发展,如Kersten & Yuille (1996) 和 Yuille

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值