CPT：刷爆少样本REC任务！清华刘知远团队提出跨模态预训练Prompt Tuning

最新推荐文章于 2024-05-29 15:03:28 发布

我爱计算机视觉

最新推荐文章于 2024-05-29 15:03:28 发布

阅读量1.9k

点赞数

文章标签：机器学习人工智能深度学习 java 大数据

本文链接：https://blog.csdn.net/moxibingdao/article/details/122572212

版权

清华大学刘知远团队提出的CPT方法，通过跨模态提示调优（Cross-modal Prompt Tuning）改善预训练视觉语言模型在少样本REC任务的表现。CPT将视觉定位转化为填空问题，减少了预训练和微调的任务差距，实现强大的视觉grounding能力。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』，由清华刘知远团队提出跨模态预训练 Prompt Tuning（CPT）刷爆少样本REC任务！

详细信息如下：

论文链接：https://arxiv.org/abs/2109.11797
项目链接：未开源

导言：

预训练的视觉语言模型（VL-PTM）在Visual Ground任务上表现出了良好的能力，促进了各种跨模态任务的完成。然而，作者注意到，模型预训练和微调的目标之间存在着巨大的差距，因此需要大量的标记数据来促进VL-PTM对下游任务的视觉ground能力。

为了应对这一挑战，作者提出了跨模态提示调优 (CPT，Cross-modal Prompt Tuning)，这是一种用于微调VL-PTM的新范例，它将visual grounding任务重新定义为图像和文本中基于颜色标记的填空问题，最大限度地缩小了预训练和微调的任务差距。

通过这种方式，提示调优（Prompt Tuning）方法可以实现VL-PTM的强大的少样本甚至零样本的visual grounding能力。实验结果表明，提示调优的VL-PTM在很大程度上优于finetune方法。

Motivation

Visual Grounding是很多视觉语言任务的基础，该任务旨在通过给定的句子来定位图像中的区域。最近，预训练的视觉语言模型（VL-PTM）在Visual Grounding方面显示出了良好的性能。通常，通用跨模态表示首先以自监督的方式对大规模图像字幕数据进行预训练，然后进行微调以适应下游任务。VL-PTM的这种先预训练然后微调的范式极大地推动了许多跨模态任务的SOTA性能。