论文链接: https://arxiv.org/abs/2308.13437
代码链接: https://github.com/PVIT-official/PVIT
Demo: https://huggingface.co/spaces/PVIT/pvit
引言
随着ChatGPT等语言大模型的走红,越来越多人尝试探索为语言大模型赋予视觉能力[1,2],打造多模态大模型。如何让人类与多模态大模型更自然地交互,让模型更好地理解图像和文本指令是重要的研究课题。
引入位置信息是让模型更好地理解图像和用户意图的有效方法。例如在图1中,利用框表示位置信息能有效帮助用户更加简明地表达问题,与多模态大模型更自然地交互。OpenAI近期推出的GPT-4V(ision)[3]也有类似功能。
本文作者尝试以开源模型为基础,引入位置信息进行视觉指令微调。作者发现,引入额外的区域编码器能有效增强模型对用户意图的理解和指令遵循能力。
