CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning

清华大学刘知远团队提出的CPT方法,通过跨模态提示调优(Cross-modal Prompt Tuning)改善预训练视觉语言模型在少样本REC任务的表现。CPT将视觉定位转化为填空问题,减少了预训练和微调的任务差距,实现强大的视觉grounding能力。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出跨模态预训练 Prompt Tuning(CPT)刷爆少样本REC任务!

详细信息如下:

0950ffea2231d7754a73472a077d1b68.png

  • 论文链接:https://arxiv.org/abs/2109.11797

  • 项目链接:未开源

导言:

dd764d2bda2c16b4184eaaba013fad77.png

      预训练的视觉语言模型(VL-PTM)在Visual Ground任务上表现出了良好的能力,促进了各种跨模态任务的完成。然而,作者注意到,模型预训练和微调的目标之间存在着巨大的差距,因此需要大量的标记数据来促进VL-PTM对下游任务的视觉ground能力。

      为了应对这一挑战,作者提出了跨模态提示调优 (CPT,Cross-modal Prompt Tuning),这是一种用于微调VL-PTM的新范例,它将visual grounding任务重新定义为图像和文本中基于颜色标记的填空问题,最大限度地缩小了预训练和微调的任务差距

      通过这种方式,提示调优(Prompt Tuning)方法可以实现VL-PTM的强大的少样本甚至零样本的visual grounding能力。实验结果表明,提示调优的VL-PTM在很大程度上优于finetune方法。

      01      

Motivation

Visual Grounding是很多视觉语言任务的基础,该任务旨在通过给定的句子来定位图像中的区域。最近,预训练的视觉语言模型(VL-PTM)在Visual Grounding方面显示出了良好的性能。通常,通用跨模态表示首先以自监督的方式对大规模图像字幕数据进行预训练,然后进行微调以适应下游任务。VL-PTM的这种先预训练然后微调的范式极大地推动了许多跨模态任务的SOTA性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值