收录:CVPR2023
代码:https://github.com/muzairkhattak/multimodal-prompt-learning
Abstract
CLIP这类预训练的视语模型对输入文本提示的选择很敏感,需要仔细选择 Prompt 模板,而且使用prompt来仅调整CLIP的(语言或视觉)单个分支中的表示是次优的,因为它们不能灵活地动态调整语言和视觉两个表示空间。因此作者提出了Multi-modal Prompt Learning (Maple),用于视觉和语言两个分支,以改善视觉和语言表征之间的一致性。
双分支学习和SOTA效果:
Method
与以前只在文本分支学习上下文提示的方法不同,Maple提出了一种联合提示方法