多模态论文学习之ALBEF(Align BEfore Fusing)

Title

《Align before Fuse: Vision and Language
Representation Learning with Momentum Distillation》

Links

Paper地址

Motivation

大多数多模态模型都是用transformer的编码器同时编码视觉的token(region-based image features)和文本的token。用了目标检测器后,视觉特征和文本特征不是align的(becasue:目标检测器是提前训练好的,然后只用抽特征,没有进行end-to-end的训练,所以导致视觉特征和文本特征可能相隔很远。然后同时将这两个特征扔给编码器,编码器可能就学不好)。

How to solve it?(Contribution)

  • 提出一个对比学习的loss(其实就是MoCo的loss),就能把图像和文本在fusing之前把它们align上
  • 不需要预训练的目标检测器和高分辨率图像
  • 为了有效地学习文本图像特征,提出Momentum Distillation(一种self-training的方式(pseudo-targets伪标签))来提高nosiy web data的质量。

Model

Illustration of ALBEF

  • 突出视觉特征,弱化文本特征:视觉用12层的encoder,文本把12层的encoder分为两部分,一部分做text encoder,另一部分做mutimodal encoder
  • Contrastive loss:希望正样本对的之间越近,负样本对之间越远:抽取全局特征,在特征之间做embedding space之间的拉近和拉远。
  • ITM(Image Text Matching):输入一个图片(I)和一个文本(T),经过ALBEF模型后,得到一个特征,再经过一个分类头(FC层),判断I和T是否是一对。其实就是个二分类任务。
  • MLM(Mask Language Modelling(bert里的完形填空)): 对输入的文本(T)进行Mask(T’),用I 和T’输入模型后,把之前完整的句子T预测出来。(这就导致模型进行了两次feed forward。一次:I和T输入模型;一次:I 和T’输入模型。这也是为什么multimodal模型的时间普遍比较长)
  • Momentum Distillation:使用One-hot label来进行ITC和MLM不好,因为有的负样本也包含了很多信息,甚至比正样本描述的信息还多。

Experiments

Pre-training Datasets

  • Conceptual Captions
  • SBU Captions
  • COCO
  • Visual Genome

Downstream tasks

  • Image-Text Retrieval:文本到图像;图像到文本
  • Visual Entailment(视觉蕴含):给定一个前提,是否能推理出这个前提,如果能推理出,就表明是个蕴含关系;如果不能推理出,表明contradictory;如果不知道是否能推理出来,表明neutral;
  • VQA
  • Natural Language for Visual Reasoning:一个文本能不能同时描述一对图片。二分类问题,衡量指标为准确度。
  • Visual Grounding

Ablation Experiment

  • ITC loss在多个任务上有提升,证明了其有效性,也证明了对比学习的潜力
  • hard negative 在所有任务上都有提升,证明了其是个有效的技巧
  • Momentum Distillation带来的提升不是很大(相比于其他技巧而言),但是这个研究方向很好:怎么从noisy data中学习有效的表征。
  • 用了更大的数据集,效果变好。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值