- 📌 元数据概览:
- 标题:论文的标题是 “Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models”,这表明论文可能讨论的是如何在多模态大型语言模型(MLLMs)中实现更精细的、局部化的视觉感知能力。
- 作者:作者是来自香港大学(The University of Hong Kong)和字节跳动公司(ByteDance Inc.)的研究人员。他们的背景可能涉及计算机视觉、自然语言处理和人工智能。
- 链接:论文的具体网址是 https://arxiv.org/pdf/2404.13013.pdf,这个链接指向了论文在arXiv上的预印本。
- 标签:论文的关键词或标签可能包括多模态大型语言模型(MLLMs)、视觉感知、区域化视觉标记(Localized Visual Tokenization)、视觉定位(Visual Grounding)等。