Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models

最新推荐文章于 2024-09-27 10:58:53 发布

UnknownBody

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量36

点赞数

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/139988854

版权

LLM Daily 同时被 2 个专栏收录

209 篇文章 5 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

73 篇文章 0 订阅

订阅专栏

本文是LLM系列文章，针对《Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models》的翻译。

多模态大语言模型中推理的即插即用基础

摘要
1 引言
2 方法
3 P2GB基准
4 实验
5 分析
6 结论
局限性

摘要

以其先进的指令遵循和推理能力而闻名的多模态大型语言模型（MLLMs）的兴起，极大地推动了视觉推理领域的发展。然而，由于其图像标记化过程的局限性，大多数MLLM难以捕捉图像中文本和对象的精细细节，尤其是在高分辨率样本中。为了克服这一限制，我们引入了P2G，这是一种用于MLLMs即插即用接地的新框架。P2G利用MLLM的工具使用潜力，使用专家代理将推理动态地嵌入图像中的关键视觉和文本元素，从而通过多模态提示实现深思熟虑的推理。此外，我们开发了P2GB，这是一个基准测试，旨在评估MLLM在理解具有挑战性的高分辨率图像中的对象间关系和文本内容方面的熟练程度。在视觉推理任务上的大量实验证明了P2G的优越性，在具有7B主干的P2GB上实现了与GPT-4V相当的性能。我们的工作强调了在MLLMs中使用外部代理进行基础推理的潜力，为单纯的模型缩放提供了一种很有前途的替代方案。

1 引言

2 方法

3 P2GB基准

4 实验

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。