Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

本文是LLM系列文章,针对《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》的翻译。

Groma:多模态大型语言模型的本地化视觉标记化

摘要

我们介绍了Groma,一种具有基准和细粒度视觉感知能力的多模态大型语言模型(MLLM)。除了全面的图像理解,Groma还擅长区域级任务,如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上,在该机制中,图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出基于图像。此外,为了增强Groma的基准聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。与依赖语言模型或外部模块进行本地化的MLLM相比,Groma在标准引用和基础基准测试中始终表现出卓越的性能,突出了将本地化嵌入图像标记化的优势。项目页面:https://groma-mllm.github.io/.

1 引言

2 相关工作

3 方法

4 GPT4V辅助基准对话生成

5 实验

6 局限性和结论

在本文中,我们引入了一种新的范式Groma,以释放MLLM的局部感知能力。我们率先尝试将本地化嵌入到图像标记化中。我们的范式基于一种先感知后理解的心态&#x

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值