剑桥联手英特尔，利用大模型重构逆向图形学，解锁图像新维度

柏企

于 2024-05-29 08:00:00 发布

阅读量1.7k

点赞数 32

CC 4.0 BY-SA版权

分类专栏：人工智能论文解读大模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huake6/article/details/139265103

获取本文论文原文PDF，请在公众号【AI论文解读】留言：论文解读

引言：探索逆向图形学的新视角

逆向图形学（Inverse Graphics）是计算机视觉和图形学中的一个基本挑战，它涉及将图像转化为物理变量的任务，这些变量在渲染时能够再现观察到的场景。这一过程需要将图像解构为其构成元素，如场景中对象的形状、颜色和材料属性，这需要对环境有一个全面的理解。然而，现有的精心设计的方法在跨领域泛化方面存在限制。受到大型语言模型（LLMs）在新环境中进行零样本泛化能力的启发，我们探索了利用这些模型中编码的广泛世界知识来解决逆向图形学问题的可能性。本研究提出了一个以LLM为中心的逆向图形学框架——Inverse-Graphics Large Language Model（IG-LLM），该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。我们的分析开启了利用LLMs的视觉知识进行精确空间推理的新可能性，这些都将在后续章节中详细探讨。

论文基本信息

标题：Re-Thinking Inverse Graphics With Large Language Models

作者：

Peter Kulits (kulits@tue.mpg.de)
Haiwen Feng (hfeng@tue.mpg.de)
Weiyang Liu (wl396@cam.ac.uk)
Victoria Abrevaya (vabrevaya@tue.mpg.de)
Michael J. Black (black@tue.mpg.de)

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

柏企 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。