MaPLe: Multi-modal Prompt Learning

MaPLe是针对CLIP的多模态提示学习方法,通过联合学习视觉和语言提示,增强两者之间的表示一致性。与仅调整单一分支的提示方法相比,MaPLe在两个分支中学习上下文提示,通过深度提示和跨模态耦合,提高模型的性能。实验证明,这种方法能学到更具区分性的图像嵌入,提升了模型在各种任务上的表现。
摘要由CSDN通过智能技术生成

收录:CVPR2023

代码:https://github.com/muzairkhattak/multimodal-prompt-learning

Abstract

CLIP这类预训练的视语模型对输入文本提示的选择很敏感,需要仔细选择 Prompt 模板,而且使用prompt来仅调整CLIP的(语言或视觉)单个分支中的表示是次优的,因为它们不能灵活地动态调整语言和视觉两个表示空间。因此作者提出了Multi-modal Prompt Learning  (Maple),用于视觉和语言两个分支,以改善视觉和语言表征之间的一致性。

双分支学习和SOTA效果:

Method

与以前只在文本分支学习上下文提示的方法不同,Maple提出了一种联合提示方法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值