Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

UnknownBody

于 2024-08-20 15:05:11 发布

阅读量80

点赞数 4

分类专栏： Multimodal LLM Daily 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141358798

版权

LLM Daily 同时被 2 个专栏收录

181 篇文章 3 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

63 篇文章 0 订阅

订阅专栏

本文是LLM系列文章，针对《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》的翻译。

Groma：多模态大型语言模型的本地化视觉标记化

摘要
1 引言
2 相关工作
3 方法
4 GPT4V辅助基准对话生成
5 实验
6 局限性和结论

摘要

我们介绍了Groma，一种具有基准和细粒度视觉感知能力的多模态大型语言模型（MLLM）。除了全面的图像理解，Groma还擅长区域级任务，如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上，在该机制中，图像输入被分解为感兴趣的区域，随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中，我们无缝地使Groma能够理解用户指定的区域输入，并将其文本输出基于图像。此外，为了增强Groma的基准聊天能力，我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。与依赖语言模型或外部模块进行本地化的MLLM相比，Groma在标准引用和基础基准测试中始终表现出卓越的性能，突出了将本地化嵌入图像标记化的优势。项目页面：https://groma-mllm.github.io/.

1 引言

2 相关工作

3 方法

4 GPT4V辅助基准对话生成

5 实验

6 局限性和结论

在本文中，我们引入了一种新的范式Groma，以释放MLLM的局部感知能力。我们率先尝试将本地化嵌入到图像标记化中。我们的范式基于一种先感知后理解的心态&#x

了解本专栏

超级会员免费看

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

我们介绍了Groma，一种具有基准和细粒度视觉感知能力的多模态大型语言模型（MLLM）。除了全面的图像理解，Groma还擅长区域级任务，如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上，在该机制中，图像输入被分解为感兴趣的区域，随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中，我们无缝地使Groma能够理解用户指定的区域输入，并将其文本输出基于图像。此外，为了增强Groma的基准聊天能力，我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。