NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

最新推荐文章于 2024-06-11 14:00:00 发布

PaperWeekly

最新推荐文章于 2024-06-11 14:00:00 发布

阅读量5.7k

点赞数 2

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/123366446

版权

©PaperWeekly 原创 · 作者 | 杨浩

研究方向 | 自然语言处理

#01.

VL-T5

论文标题：

Unifying Vision-and-Language Tasks via Text Generation

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2102.02779

代码链接：

https://github.com/j-min/VL-T5

1.1 Motivation

提出了一个统一的框架、统一的训练目标，能够兼容 7 个多模态任务的学习。统一的训练方式是 multimodal conditional text generation，即输入视觉图片+文本，生成文本 label，不同的任务之间的知识可以共享。

1.2 Method

7 个多模态任务的 benchmark，包括 VQA, GQA, COCO Caption, NLVR2, VCR, MMT, REF-COCOg。所有任务的输入加上文本前缀（e.g.”vqa:”, “image text match:”）用于区分不同任务，输出都统一成 text label 的形式。对于 visual grounding 任务，图片特征输入时就加了类似 <vis_n> 的 region id，所以输出时可以用 text label “<vis_n>” 来指示预测的图片区域。

1.3 Contribution

提出任务统一框架，使用了 encoder-decoder 的 Transformer 结构。

#02.

CLIP

论文标题：

Learning Transferable Visual Models From Natural Language Supervision

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2103.00020

代码链接：

https://github.com/OpenAI/CLIP

2.1 Motivation

NLP 领域BERT/GPT 等可以利用大量的语料的数据进行自监督训练从而进行 pretrain，然而 CV 领域是用标注信息的分类数据集进行 pretrain (ImageNet)，是否能利用网上大规模的图片信息进行预训练，使用 natural language 作为 image representation 的监督信号，从而提升下游任务的效果。

2.2 Method

1. 利用从互联网爬取的 400 million 个 image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于 30 个现存的计算机视觉——OCR、动作识别、细粒度分类等。

2. 使用对比学习的方法，做图文匹配的任务，计算相似度。给定 batch=N 的 image-text pairs，CLIP 预测 NxN 的概率（利用线性变换得到 multi-modal embedding space 的向量，点乘计算得到相似度），对角线即为正样本，其它都是负样本。

2.3 Contribution

无需利用 ImageNet 的数据进行训练，就可以达到 ResNet-50 在该数据集上有监督训练的结果。

#03.

Frozen

论文标题：

最低0.47元/天解锁文章

PaperWeekly

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

©PaperWeekly 原创 ·作者|杨浩研究方向|自然语言处理#01.VL-T5论文标题：Unifying Vision-and-Language Tasks via Te...
复制链接

扫一扫