ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models
在本研究中,提出了一种无需进行训练的方法,通过可学习的潜变量优化将视觉提示注入到多模态大型语言模型(MLLMs)中。
在MLLMs核心模块中,注意力连接文本提示标记和视觉标记,并最终确定输出结果起着重要作用。
提出的方法涉及在推理过程中调整与视觉标记相关联部分的MLP输出,以控制注意力响应并确保文本提示标记关注指定区域内的视觉标记。
通过基于能量函数优化一个可学习的潜变量,增强了注意图对指定区域描述和推理任务的能力,而无需进行大规模训练或重新训练模型。
因此,本文提供了一种有希望将引用能力集成到MLLMs中,并支持使用框、蒙版、涂鸦和点等方式进行引用的方法。
动机
要解决的问题
- 传统MLLMs的局限性:
- 粗粒度图像对齐:传统多模态大语言模型ÿ