多模态论文学习之ALBEF（Align BEfore Fusing）

幸运的小菜鸟

已于 2024-03-05 02:02:09 修改

阅读量261

点赞数

文章标签：学习论文阅读论文笔记

于 2023-11-01 17:10:45 首次发布

本文链接：https://blog.csdn.net/qq_41825704/article/details/134162949

版权

ALBEF泛读

Title
Links
Motivation
How to solve it?（Contribution）
Model
Experiments

Title

《Align before Fuse: Vision and Language
Representation Learning with Momentum Distillation》

Links

Paper地址

Motivation

大多数多模态模型都是用transformer的编码器同时编码视觉的token（region-based image features）和文本的token。用了目标检测器后，视觉特征和文本特征不是align的（becasue:目标检测器是提前训练好的，然后只用抽特征，没有进行end-to-end的训练,所以导致视觉特征和文本特征可能相隔很远。然后同时将这两个特征扔给编码器，编码器可能就学不好）。

How to solve it?（Contribution）

提出一个对比学习的loss（其实就是MoCo的loss），就能把图像和文本在fusing之前把它们align上
不需要预训练的目标检测器和高分辨率图像
为了有效地学习文本图像特征，提出Momentum Distillation(一种self-training的方式（pseudo-targets伪标签))来提高nosiy web data的质量。

Model

Illustration of ALBEF

突出视觉特征，弱化文本特征：视觉用12层的encoder，文本把12层的encoder分为两部分，一部分做text encoder,另一部分做mutimodal encoder
Contrastive loss:希望正样本对的之间越近，负样本对之间越远：抽取全局特征，在特征之间做embedding space之间的拉近和拉远。
ITM(Image Text Matching):输入一个图片（I）和一个文本（T），经过ALBEF模型后，得到一个特征，再经过一个分类头（FC层），判断I和T是否是一对。其实就是个二分类任务。
MLM(Mask Language Modelling(bert里的完形填空)): 对输入的文本（T）进行Mask(T’)，用I 和T’输入模型后，把之前完整的句子T预测出来。（这就导致模型进行了两次feed forward。一次：I和T输入模型；一次：I 和T’输入模型。这也是为什么multimodal模型的时间普遍比较长）
Momentum Distillation:使用One-hot label来进行ITC和MLM不好，因为有的负样本也包含了很多信息，甚至比正样本描述的信息还多。

Experiments

Pre-training Datasets

Conceptual Captions
SBU Captions
COCO
Visual Genome

Downstream tasks

Image-Text Retrieval:文本到图像；图像到文本
Visual Entailment(视觉蕴含)：给定一个前提，是否能推理出这个前提，如果能推理出，就表明是个蕴含关系；如果不能推理出，表明contradictory；如果不知道是否能推理出来，表明neutral；
VQA
Natural Language for Visual Reasoning:一个文本能不能同时描述一对图片。二分类问题，衡量指标为准确度。
Visual Grounding

Ablation Experiment

ITC loss在多个任务上有提升，证明了其有效性，也证明了对比学习的潜力
hard negative 在所有任务上都有提升，证明了其是个有效的技巧。
Momentum Distillation带来的提升不是很大（相比于其他技巧而言），但是这个研究方向很好：怎么从noisy data中学习有效的表征。
用了更大的数据集，效果变好。

幸运的小菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多模态论文学习之ALBEF（Align BEfore Fusing）

（becasue:目标检测器是提前训练好的，然后只用抽特征，没有进行end-to-end的训练,所以导致视觉特征和文本特征可能相隔很远。然后同时将这两个特征扔给编码器，编码器可能就学不好）。大多数多模态模型都是用transformer的编码器同时编码视觉的token（region-based image features）和文本的token。
复制链接

扫一扫