©PaperWeekly 原创 · 作者 | 杨浩
研究方向 | 自然语言处理
#01.
VL-T5
论文标题:
Unifying Vision-and-Language Tasks via Text Generation
收录会议:
ICML 2021
论文链接:
https://arxiv.org/abs/2102.02779
代码链接:
https://github.com/j-min/VL-T5
1.1 Motivation
提出了一个统一的框架、统一的训练目标,能够兼容 7 个多模态任务的学习。统一的训练方式是 multimodal conditional text generation,即输入视觉图片+文本,生成文本 label,不同的任务之间的知识可以共享。
1.2 Method
7 个多模态任务的 benchmark,包括 VQA, GQA, COCO Caption, NLVR2, VCR, MMT, REF-COCOg。所有任务的输入加上文本前缀(e.g.”vqa:”, “image text match:”)用于区分不同任务,输出都统一成 text label 的形式。对于 visual grounding 任务,图片特征输入时就加了类似 <vis_n> 的 region id,所以输出时可以用 text label “<vis_n>” 来指示预测的图片区域。
1.3 Contribution
提出任务统一框架,使用了 encoder-decoder 的 Transformer 结构。
#02.
CLIP
论文标题:
Learning Transferable Visual Models From Natural Language Supervision
收录会议:
ICML 2021
论文链接:
https://arxiv.org/abs/2103.00020
代码链接:
https://github.com/OpenAI/CLIP
2.1 Motivation
NLP 领域BERT/GPT 等可以利用大量的语料的数据进行自监督训练从而进行 pretrain,然而 CV 领域是用标注信息的分类数据集进行 pretrain (ImageNet),是否能利用网上大规模的图片信息进行预训练,使用 natural language 作为 image representation 的监督信号,从而提升下游任务的效果。
2.2 Method
1. 利用从互联网爬取的 400 million 个 image-text pair 进行图文匹配任务的训练,并将其成功迁移应用于 30 个现存的计算机视觉——OCR、动作识别、细粒度分类等。
2. 使用对比学习的方法,做图文匹配的任务,计算相似度。给定 batch=N 的 image-text pairs,CLIP 预测 NxN 的概率(利用线性变换得到 multi-modal embedding space 的向量,点乘计算得到相似度),对角线即为正样本,其它都是负样本。
2.3 Contribution
无需利用 ImageNet 的数据进行训练,就可以达到 ResNet-50 在该数据集上有监督训练的结果。
#03.
Frozen
论文标题: