ALBEF泛读
Title
《Align before Fuse: Vision and Language
Representation Learning with Momentum Distillation》
Links
Motivation
大多数多模态模型都是用transformer的编码器同时编码视觉的token(region-based image features)和文本的token。用了目标检测器后,视觉特征和文本特征不是align的(becasue:目标检测器是提前训练好的,然后只用抽特征,没有进行end-to-end的训练,所以导致视觉特征和文本特征可能相隔很远。然后同时将这两个特征扔给编码器,编码器可能就学不好)。
How to solve it?(Contribution)
- 提出一个对比学习的loss(其实就是MoCo的loss),就能把图像和文本在fusing之前把它们align上
- 不需要预训练的目标检测器和高分辨率图像
- 为了有效地学习文本图像特征,提出Momentum Distillation(一种self-training的方式(pseudo-targets伪标签))来提高nosiy web data的质量。
Model
- 突出视觉特征,弱化文本特征:视觉用12层的encoder,文本把12层的encoder分为两部分,一部分做text encoder,另一部分做mutimodal encoder
- Contrastive loss:希望正样本对的之间越近,负样本对之间越远:抽取全局特征,在特征之间做embedding space之间的拉近和拉远。
- ITM(Image Text Matching):输入一个图片(I)和一个文本(T),经过ALBEF模型后,得到一个特征,再经过一个分类头(FC层),判断I和T是否是一对。其实就是个二分类任务。
- MLM(Mask Language Modelling(bert里的完形填空)): 对输入的文本(T)进行Mask(T’),用I 和T’输入模型后,把之前完整的句子T预测出来。(这就导致模型进行了两次feed forward。一次:I和T输入模型;一次:I 和T’输入模型。这也是为什么multimodal模型的时间普遍比较长)
- Momentum Distillation:使用One-hot label来进行ITC和MLM不好,因为有的负样本也包含了很多信息,甚至比正样本描述的信息还多。
Experiments
Pre-training Datasets
- Conceptual Captions
- SBU Captions
- COCO
- Visual Genome
Downstream tasks
- Image-Text Retrieval:文本到图像;图像到文本
- Visual Entailment(视觉蕴含):给定一个前提,是否能推理出这个前提,如果能推理出,就表明是个蕴含关系;如果不能推理出,表明contradictory;如果不知道是否能推理出来,表明neutral;
- VQA
- Natural Language for Visual Reasoning:一个文本能不能同时描述一对图片。二分类问题,衡量指标为准确度。
- Visual Grounding
Ablation Experiment
- ITC loss在多个任务上有提升,证明了其有效性,也证明了对比学习的潜力
- hard negative 在所有任务上都有提升,证明了其是个有效的技巧。
- Momentum Distillation带来的提升不是很大(相比于其他技巧而言),但是这个研究方向很好:怎么从noisy data中学习有效的表征。
- 用了更大的数据集,效果变好。