Accelerating Vision-Language Pretraining with Free Language Modeling(未完待续……)

题目:Accelerating Vision-Language Pretraining with Free Language Modeling

(通过自由语言建模加速视觉语言预训练)
时间:2023年

总结:
1、
2、
3、

解释:123



前言

视觉语言预训练 (VLP) 的最新技术实现了堪称典范的性能,但由于收敛速度慢和训练时间长而导致训练成本高昂,尤其是在大规模网络数据集上。训练效率的一个主要障碍在于掩蔽语言建模(MLM)中的纠缠预测率(用于重建的令牌的百分比)和损坏率(损坏的令牌的百分数),也就是说,以大部分输出令牌被排除在预测损失之外为代价来实现适当的损坏率。为了加速 VLP 的收敛,我们提出了一种新的预训练任务,即自由语言建模(FLM),它可以在任意损坏率下实现 100% 的预测率。 FLM 成功地将预测率从腐败率的束缚中解放出来,同时允许为每个要预测的令牌定制腐败范围。在相同的 GPU 时间下,通过更灵活地利用双向上下文,鼓励 FLM 训练的模型学习得更好更快。大量实验表明,与基于 MLM 的方法相比,FLM 可以实现令人印象深刻的 2.5 倍预训练时间缩短,同时在视觉语言理解和生成任务上保持竞争性能。

总结:速度更快

1. 介绍

视觉语言预训练(VLP)最近在一些视觉语言任务上表现出了令人印象深刻的性能,例如视觉问答、跨模态检索和图像字幕。成功的因素有几个:从网络 [30] 收集的大规模图像文本数据集的可用性、Transformer [34] 等高容量模型架构以及跨模式学习的有效预训练目标。

主要的预训练目标之一是掩码语言建模(MLM),它首先在自然语言处理中引入[9],近年来已应用于视觉语言领域[19]。 MLM 是一项生成式预训练任务,旨在通过剩余文本和配对图像的上下文之间的推理来重建一些(VLP 通常为 40%)屏蔽文本标记。虽然可以有效捕获跨模式交互,但基于 MLM 的方法存在收敛速度慢和训练时间长的问题,特别是对于大规模模型和嘈杂的网络数据。

总结:收敛速度慢和训练时间长

我们认为,MLM 中有限的预测率阻碍了预训练的收敛速度,因为大部分伴随损坏的令牌被排除在预测损失之外。如图 1(上)所示,在相同的损坏率下,MLM 的预测率越大,验证损失和下游性能的收敛速度就越快。设置 100% 的预测率以充分利用文本标记是很直观的。然而,出现了一个悖论,即传销中只有较高的损坏率才能实现大的预测率,但极大的损坏率会导致极其艰巨的预训练任务,可能导致训练崩溃。
图(1)
图 1.(a) 大预测率可加速训练。给定固定的损坏率,我们通过随机选择预测损失的输出令牌子集来改变预测率。学习率表遵循 METER [10]。 (b) 与 MLM 相比,所提出的 FLM 实现了有竞争力的性能,同时显着加速了预训练阶段。报告了 NLVR2 [32] 的下游性能。我们在收敛之前显示精度曲线,以便更好地可视化

一个自然的问题是,我们能否像 AR 一样通过预测 100% 代币来加速 VLP 的收敛,同时获得与 MLM 竞争的性能?为此,我们为 VLP 引入了一种新的预训练任务,称为自由语言建模 (FLM),它具有极高的 100% 预测率和灵活的双向上下文表示。我们首次打破了腐败与预测率之间的纠葛,使这两个因素可以自由决定。此外,对于要预测的每个输出令牌,我们允许独立且任意长度的跨度(从 1 到 100% 令牌)作为损坏的连接。与 AR(以及 PrefixLM [37])中类似后缀的损坏模式不同,FLM 的损坏跨度主要分布在序列的中间,建立了双向上下文的灵活感知,以便更好地适应 VL 理解任务。不同预训练目标之间的比较如图2所示。
图(2)
图2:视觉语言预训练中不同语言建模方法的依赖矩阵。 rpred 表示用于重建的输出标记的比例。 rcorr 表示每个输出标记的损坏输入的比例。 rcorr 是所有重建令牌的平均损坏率。与其他方法相比,FLM具有明显的优势:1)与MLM和PrefixLM通过r将rpred和rcorr绑定在一起不同,FLM的未绑定预测率可以达到100%,从而尽可能地加速训练。 2) 如果不依赖 AR/PrefixLM 中的位置感知单向损坏或 MLM 中所有位置的固定损坏(请参见右侧线图),每个输出令牌的 FLM 中的损坏范围可能不同,并且损坏率可能不同与输出令牌的位置无关,从而实现更灵活的损坏模式,以便更好地利用双向上下文信息。

为了使用 FLM 执行 VLP,我们提出了一个编码损坏预测框架,该框架执行一次特征编码并并行重建文本序列的多个损坏版本。在编码步骤中,通过分别学习前向和反向单向表示来实现双向表示,其顺序由同一文本 Transformer 中的(反向)随意掩码操纵。随后,我们通过定制用于预测每个输入标记的损坏预测任务来确保 100% 的预测率。在每个损坏预测任务中,随机采样损坏范围并将其附加到编码序列,然后由重建器通过在剩余上下文中进行推理来解决预测任务。与之前采用预编码损坏的工作(例如,MLM、AR)不同,我们在一次性特征编码后注入损坏,鼓励灵活的损坏模式和高效的并行预测。

我们的贡献有三方面。
(1)提出了一种新颖的 VLP 预训练目标,即自由语言建模(FLM),将预测率从损坏率的约束中解放出来,实现有吸引力的 100% 预测率,以加快预训练期间的收敛速度。
(2) 提出了一种基于 FLM 目标的编码-损坏-预测框架,只需进行一次特征编码即可高效且有效地学习一组预测任务。
(3) 对 VQA、NLVR2、图像字幕和图像文本检索的大量实验证明了我们的 FLM 的有效性,在不到 50% 的预训练时间内实现了与 MLM 相当的性能

总结

2. 相关工作

视觉语言预训练
视觉语言预训练任务可以分为两类:(i)判别任务,例如图像文本对比(ITC)、图像文本匹配(ITM),以及(ii)生成任务,例如掩码语言建模(MLM) )和自回归语言模型(AR)。
判别任务将图像文本对视为相同语义的多模态视图。采用对比或多视图学习来学习多种模态之间的一致性。例如,CLIP [29]、ALIGN [14] 和后续工作 [18,20,40] 通过将图像和语言信息投影到联合(结构化)语义空间来利用跨模态对比学习。
生成任务旨在借助视觉(文本)模态重建损坏的文本(图像)。代表性作品的主体[2,7,19,22,27,35,42,43]采用类似MLM的目标,其中输入文本(图像)被部分屏蔽,然后与视觉(文本)标记交互重建损坏的部分。SimVLM [37] 引入了单前缀语言建模(PrefixLM)目标,用于利用 VLP 中的大规模弱监督。 CoCa[41]进一步验证了自回归语言模型(AR)在视觉语言领域的表示能力。
虽然大多数现有方法将判别性任务和生成性任务结合起来以实现更好的表示学习,但 BEiT-3 [36] 表明,单一生成语言模型(例如 MLM)可以通过混合专家转换器很好地处理视觉语言交互和对齐。尽管已经获得了优异的性能,但大多数基于 MLM 的现有方法都存在输出令牌利用率低的问题,并导致收敛速度慢。本文提出了一种新的针对预训练加速的生成语言建模方法。

两类:判别任务;生成任务。

高效的预训练。
虽然早期的 VLP 方法 [7,22,33, 43] 依赖于耗时的预训练对象检测器进行视觉表示,但 PiexlBERT [13] 和 ViLT [15] 直接应用网格/补丁级视觉特征来降低对象的计算复杂性级视觉编码器。除了高效模型架构的设计之外,一些研究还关注数据高效的训练。 Bitton 等人 [3] 提出了一种替代掩蔽策略,该策略更好地关注与视觉相关的物理单词,以改善资源匮乏环境中的 VLP。 DeCLIP [23] 通过探索更多的监督信号来增强 CLIP,例如单一模态内的自我监督或跨不同模态的多视图监督。与本文最相关的工作是 GRIT-VLP [5],它为 MLM 分配更大的掩模率,并为 ITC 进行分组批量负采样以加速收敛。然而,只有一半的输出标记被分配给重建任务,其中未充分使用的输出标记阻碍了预训练的进一步加速。我们的方法将损坏率和重建率解耦,使它们可以自由选择,以实现性能和效率之间的更好结合。

本文的方法将损坏率和重建率解耦,使它们可以自由选择,以实现性能和效率之间的更好结合。

语言建模
在 NLP 中,MLM [9,12,25] 和 AR [4, 8] 是两个最流行的生成预训练目标。 AR 旨在通过自回归模型使用乘积规则来估计给定文本序列的概率分布。然而,单向编码可能不适合偏好双向上下文信息的语言理解任务。 MLM 为语言理解任务提供了双向上下文,但不能直接应用于语言生成任务。

一些作品 [11, 39] 将 MLM 和 AR 结合起来,以在语言理解和生成任务上获得更好的性能。 Wettig等人[38]从损坏和预测的角度研究了传销中掩码率的选择。然而,在以前的方法中,很少关注训练效率问题。我们的目标是加速视觉语言预训练,同时在视觉语言理解和生成任务上保持良好的表现。

总结:该文的目标是加速视觉语言预训练,同时在视觉语言理解和生成任务上保持良好的表现。

3. 方法

在本节中,我们首先从第 2 节中的 3.1. 损坏预测视图中回顾 VLP 的代表性语言建模方法。然后我们提出了新的语言建模方法 FLM,将预测率与第3.2中的损坏率解耦。 最后,我们将 FLM 引入 VLP 中,并在3.3中提出了一种新颖的编码损坏预测框架来加速 VLP。

3.1. 作为损失预测的语言建模

给定输入序列x = {x1,…, xL}, MLM旨在通过用特殊的掩码令牌随机替换部分输入令牌来学习深度双向表示,然后最大化重建这些掩码令牌的概率P(xm|x\m),其中xm表示损坏的令牌。AR使用从左到右的自回归分解来模拟序列的密度分布:i=1:L log P(xi |x

3.2.

3.3.

总结

4. 实验

4.1.

4.2.

4.3.

总结

5. 结论

总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值