本文是LLM系列文章,针对《Toward Interactive Regional Understanding in Vision-Large Language Models》的翻译。
摘要
最近的视觉语言预训练(VLP)模型已经显示出显著的进步。然而,这些模型严重依赖于仅捕获图像的粗略和全局信息的图像-文本对,导致其区域理解能力受到限制。在这项工作中,我们介绍了RegionVLM,它配备了明确的区域建模功能,使他们能够理解用户指示的图像区域。为了实现这一点,我们设计了一个简单而创新的架构,不需要修改模型架构或目标功能。此外,我们利用了一个包含新信息来源的数据集,即本地化叙述,这在以前的VLP研究中被忽视了。我们的实验表明,我们的单广义模型不仅实现了交互式对话系统,而且在不影响其全局图像理解能力的情况下,在各种零样本区域理解任务上表现出优异的性能。