剑桥联手英特尔,利用大模型重构逆向图形学,解锁图像新维度

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

引言:探索逆向图形学的新视角

逆向图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,它涉及将图像转化为物理变量的任务,这些变量在渲染时能够再现观察到的场景。这一过程需要将图像解构为其构成元素,如场景中对象的形状、颜色和材料属性,这需要对环境有一个全面的理解。然而,现有的精心设计的方法在跨领域泛化方面存在限制。受到大型语言模型(LLMs)在新环境中进行零样本泛化能力的启发,我们探索了利用这些模型中编码的广泛世界知识来解决逆向图形学问题的可能性。本研究提出了一个以LLM为中心的逆向图形学框架——Inverse-Graphics Large Language Model(IG-LLM),该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。我们的分析开启了利用LLMs的视觉知识进行精确空间推理的新可能性,这些都将在后续章节中详细探讨。

6df0f033565cafd79d28718b31d34990.jpeg

论文基本信息

标题:Re-Thinking Inverse Graphics With Large Language Models

作者:

  • Peter Kulits (kulits@tue.mpg.de)
  • Haiwen Feng (hfeng@tue.mpg.de)
  • Weiyang Liu (wl396@cam.ac.uk)
  • Victoria Abrevaya (vabrevaya@tue.mpg.de)
  • Michael J. Black (black@tue.mpg.de)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

柏企

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值