统一单双流结构的VLP模型,在三个预训练任务中刷新SOTA!

【导语】一直以来多模态面临着“描述相似对象”的标注问题,即相关部分特征进行对齐,再进行特征融合。本期文章通过图片-文本对比学习、图片-文本匹配、掩码语言模型,三个预训练任务,并提出动量蒸馏对抗数据噪音、改进训练过程,在多个任务上刷新了SOTA。

关键词:特征融合 特征对齐 动量蒸馏

个人主页:

https://blog.csdn.net/lKin_Chueng

文章题目:

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

文章地址:

10.48550/arXiv.2107.07651

[ 作者介绍 ]

Junnan Li,是一位来自新加坡国立大学计算机科学系的博士生,研究方向主要集中在图像理解、自然语言推理和跨模态学习 。其h指数为16。

Ramprasaath R. Selvaraju,是一位来自印度理工学院计算机科学与工程系的助理教授,研究方向主要涉及深度学习中的可解释性和不公平性问题。其h指数为34。

Akhilesh D. Gotmare,是一位在美国IBM Thomas J. Watson研究中心从事AI和自然语言处理研究的科学家,研究方向包括自然语言处理、知识图谱、语义Web和多模态学习等领域。其h指数为17。

Shafiq Joty是一位来自新加坡计算机科学研究所的研究员,研究方向主要包括文本生成、情感分析和事件识别等。其h指数为36。

Caiming Xiong,是一位在Facebook AI Research从事研究工作的科学家,研究方向包括深度学习、计算机视觉和自然语言处理等领域,曾经参与开发ResNet等深度神经网络模型,是计算机视觉和深度学习领域的知名学者。其h指数为125。

Steven C.H. Hoi,是一位来自新加坡管理大学的教授,研究方向主要集中在机器学习和数据挖掘,包括深度学习、迁移学习、多任务学习等领域,在数据科学和机器学习领域拥有较高的知名度。其h指数为90。

[ 会议介绍]

Conference on Neural Information Processing Systems

NeurIPS会议之前是解决纯工程问题到使用计算机模型作为了解生物神经系统的工具,最近被机器学习、人工智能和统计学的论文所主导,首届 NeurIPS 会议由 IEEE 赞助,以后的 NeurIPS 会议由 Ed Posner 创立的 NeurIPS 基金会组织。会议内容包括深度学习、机器学习、计算机视觉、自然语言处理、强化学习、神经科学等众多前沿领域。2022年,NeurIPS共收到了10411份有效投稿,最终2672篇论文被接收,接受率为25.6%。其h5-index:134。

[ 整体框架]

对齐Align+融合Fuse是多模态所关注的重点,作者将模型称作ALBEF(ALign BEfore Fuse),即现将相关的部分“对齐”,再进行融合。

具体模型如下图:

图1 ALBEF的网络结构图,它由图像编码器、文本编码器和多模态编码器组成。

从图中可以清晰的看出模型的结构,将图片和文字分为"双流"分别进行处理。为了减少图像特征和文本特征之间的差异,作者使用基于Transformer的ViT来提取图像特征,而不是传统的基于CNN的模型,这也得益于最近CV会话对Transformer解决视觉问题的探索。作者在文中仍然使用传统的BERT。有趣的是,这里对原始的12层BERT进行了分割。前6层作为单模态处理阶段(文本编码器),后6层放置在多模态编码器中。在多模态处理阶段,文本的每一层首先通过自注意力进行整合,然后通过交叉注意力和视觉特征进行整合。

该模型结构并不复杂,为我们所熟悉,但作者基于这样简单的结构配合了多种预训练任务,使得该模型在多模态任务上表现优异。

| 1.动量模型

首先是"动量模型",乍一看,这个名字很新颖,是标题中所谓"动量蒸馏"的一部分。在知识蒸馏中,存在"教师"和"学生"两种角色。其核心目的是让学生模型模仿教师模型,得到相似的结果。学生模型往往比教师模型具有参数少、速度快等优点。

教师榜样的种类很多。更直观的是,教师模型选择大的预训练模型,学生模型选择小而快的模型。本文采用了另一种"在线自蒸馏"蒸馏方法。将训练过程中的学生模型作为教师进行移动平均,可以有效抵抗数据集中的噪声,因为此时的教师模型被整合为多个模型,可以更好地抵抗噪声。

| 2.图片-文本对比学习(ITC)

这里的"对比学习"就是让图片与文字更好的对应。实现方法是先给出一个文本特征或视觉特征,然后给出多个其他特征,在这些特征中选择相应的一个。'正例'比较简单,即数据集中的图文对,所以如果得到'负例'?在这里,作者维护了一个大小为M的"队列队列队列"来存储动量模型(因为动量模型是随着训练步数迭代更新的)得到的最新的M个特征。通过S ( . )向量点乘计算两个特征之间的相似度或得分。

标记本身模型得到的视觉特征为I、文本特征为T,动量模型得到的第m个视觉特征为Im、文本特征为Tm。

其中 与 分别为one-hot label,即唯一的正样例为1,其余负样例为0,是交叉熵。

| 3.掩码语言模型(MLM) 与 图片-文本匹配(ITM)

这两个预训练任务比较简单。掩码语言模型由BERT提出,将部分单词mask,并通过上下文预测其原本单词。

其中为mask后的文本特征,是one-hot label,长度等于单词表,mask对应的单词位置为1,其余为0。

图片文本匹配与图片文本对比学习目的类似,这里是通过多模态阶段(multimodal encoder)的[CLS]输出,预测当前输入的图片和文本是否匹配,即一个二分类问题。

| 4.动量蒸馏Momentum Distillation

本文使用的预训练数据集来自网络,图文对本身充满噪声,导致所谓的'正例'中文本与图片的相关性较低,而所谓的'反例'则有一定的概率说明文本与图片具有一定的相似性。于是,为了对抗数据集中的噪声,作者提出动量蒸馏,动量蒸馏的核心是上文已经介绍过的动量模型,动量模型的结果也在图片-文本对比学习中用到,但是作者进一步地将动量模型的结果运用于损失函数中。

在图文对比学习中,交叉熵函数实际上拟合了掩码语言模型中图文相似度与真实度的分布,交叉熵函数实际上在将掩码后的多模态特征与groud truth 相拟合。但是,正如文章分析的,训练数据存在噪声,这里所谓的ground truth并不完美,于是作者利用从动量模型中得到的分布完善原本的图片-文本相似度分布和掩码多模态特征分布。

首先需要得到动量模型中的分布,作者采用了十分简单的方法,用动态模型各个特征归一化,代替原本模型的特征计算概率分布。在图片-文本对比学习中,动量模型特征的分布如下计算:

其中只将改为,这里新的中,归一化后的动量模型输出特征取代了原本模型得到的特征。新的损失函数为:

和图片-文本对比学习类似,是动量模型预测掩码单词的概率分布,新的损失函数为:

其中KL为KL散度。

| 4.实验

在介绍完模型之后,我们再来看模型的性能。ALBEF完成了五个任务:图像文本检索、视觉推理、视觉问答、自然语言视觉推理和视觉接地。在每个任务中,由于篇幅有限,ALBEF在SOTA上都取得了不错的成绩。这里重点介绍了视觉接地。

Visual Grounding需要模型根据一段文字描述定位图片中的某个区域,先通过图片直观感受一下ALREF的强大!

图2 在单词对应的交叉注意力图上进行Grad - CAM可视化的结果。

从图片中可以看出,文字和需要对应的部分匹配的十分准确,从预测正确的准确率我们也可以看出ALBEF遥遥领先,各个不同的场景下超出baseline 20%~30%多准确率

表1 基于RefCOCO +数据集的弱监督视觉基线结果。

| 5.总结

可以看出,先对齐后融合的思想符合多模态任务的需求,使模型能够更好地利用多模态信息,这解释了ALBEF在很多多模态理解任务中的优异表现,从Visual Grounding任务中可以看出,ALBEF提出的预训练任务确实使得模型学会了图片信息和文本信息的对应关系,这也为后续研究提供了启发。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值