Prompt—从CLIP到CoOp，Visual-Language Model新范式

AMiner学术搜索和科技情报挖掘

于 2021-09-18 14:47:28 发布

阅读量450

点赞数

分类专栏： AMiner AMiner论文推荐文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/AI_Conf/article/details/120367046

版权

AMiner 同时被 2 个专栏收录

729 篇文章 44 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

以下是AMiner今日推荐的两篇论文详细内容介绍：
论文名称：
(1) Unifying Vision-and-Language Tasks via Text Generation
(2)Multimodal Few-Shot Learning with Frozen Language Models
论文链接：
(1)https://www.aminer.cn/pub/601d3fe591e011945792250c?f=cs
(2)https://www.aminer.cn/pub/60dbbedb91e0117bb69ae3e9?f=cs
首先介绍一下prompt和fine-tuning范式本质上有什么区别，然后介绍一下NLP中基于prompt的PET和AutoPrompt方法，最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。
另外，CLIP和CoOp都是基于prompt的判别式VLM方法，最近还有几篇基于prompt生成式VLM方法，基于prompt的生成式VLM和基于prompt的NLP方法非常类似。
因为CoOp是class-level的自适应，不能根据输入图片的不同动态变化prompt，如果能够根据输入图片动态调整prompt的话，也就是instance-level的自适应，可能会有奇效。learnable context的作用类似于去噪，让网络拟合噪声，使得预测部分的关注区域更为干净。感觉learnable context和ViT中的object query的功能非常相似，都是任意学习出信息，只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习，来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。

另外就是纯CV方向的prompt，也就是类似于ViT将图片拆分patch，每个patch实际上可以看成一个字符，那么也可以设计patch的prompt对模型进行训练，这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。
AMiner,让AI帮你理解科学！
在这里插入图片描述

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Prompt—从CLIP到CoOp，Visual-Language Model新范式

以下是AMiner今日推荐的两篇论文详细内容介绍：论文名称：(1) Unifying Vision-and-Language Tasks via Text Generation(2)Multimodal Few-Shot Learning with Frozen Language Models论文链接：(1)https://www.aminer.cn/pub/601d3fe591e011945792250c?f=cs(2)https://www.aminer.cn/pub/60dbbedb91e
复制链接

扫一扫