NLP领域最近比较火的Prompt,能否借鉴到多模态领域?一文跟进最新进展

2a2ee951cb75cad89a11a536c004060a.gif

 ©PaperWeekly 原创 · 作者 杨浩

研究方向 | 自然语言处理

#01.

VL-T5

90d48433ff0608d158c8519ab57c283b.png

论文标题:

Unifying Vision-and-Language Tasks via Text Generation

收录会议:

ICML 2021

论文链接:

https://arxiv.org/abs/2102.02779

代码链接:

https://github.com/j-min/VL-T5

1.1 Motivation

提出了一个统一的框架、统一的训练目标,能够兼容 7 个多模态任务的学习。统一的训练方式是 multimodal conditional text generation,即输入视觉图片+文本,生成文本 label,不同的任务之间的知识可以共享。

1.2 Method

7 个多模态任务的 benchmark,包括 VQA, GQA, COCO Caption, NLVR2, VCR, MMT, REF-COCOg。所有任务的输入加上文本前缀(e.g.”vqa:”, “image text match:”)用于区分不同任务,输出都统一成 text label 的形式。对于 visual grounding 任务,图片特征输入时就加了类似 <vis_n> 的 region id,所以输出时可以用 text label “<vis_n>” 来指示预测的图片区域。

1.3 Contribution

提出任务统一框架,使用了 encoder-decoder 的 Transformer 结构。

bc6116f661efd4c9dd27881210ee637d.png

#02.

CLIP

e98e008e7aa2c23b39c96ed70ab9463f.png

论文标题:

Learning Transferable Visual Models From Natural Language Supervision

收录会议:

ICML 2021

论文链接:

https://arxiv.org/abs/2103.00020

代码链接:

https://github.com/OpenAI/CLIP

2.1 Motivation

NLP 领域BERT/GPT 等可以利用大量的语料的数据进行自监督训练从而进行 pretrain,然而 CV 领域是用标注信息的分类数据集进行 pretrain (ImageNet),是否能利用网上大规模的图片信息进行预训练,使用 natural language 作为 image representation 的监督信号,从而提升下游任务的效果。

2.2 Method

1. 利用从互联网爬取的 400 million 个 image-text pair 进行图文匹配任务的训练,并将其成功迁移应用于 30 个现存的计算机视觉——OCR、动作识别、细粒度分类等。

2. 使用对比学习的方法,做图文匹配的任务,计算相似度。给定 batch=N 的 image-text pairs,CLIP 预测 NxN 的概率(利用线性变换得到 multi-modal embedding space 的向量,点乘计算得到相似度),对角线即为正样本,其它都是负样本。

2.3 Contribution

无需利用 ImageNet 的数据进行训练,就可以达到 ResNet-50 在该数据集上有监督训练的结果。

40bc3034814de5a79c95b870c6ff3308.png

#03.

Frozen

1b55b3db1be7e0fdb9f943cda24b64f2.png

论文标题:

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值