AdaptFormer学习笔记

AdaptFormer学习笔记

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

Abstract

尽管预训练的视觉转换器(ViT)在计算机视觉方面取得了巨大的成功,但使ViT适应各种图像和视频任务是具有挑战性的,因为它具有繁重的计算和存储负担,其中每个模型需要独立和全面地微调以适应不同的任务,这限制了它在不同领域的可移植性。为了应对这一挑战,我们提出了一种有效的自适应方法,即AdaptFormer,它可以有效地将预训练的ViTs适应到许多不同的图像和视频任务中。它拥有比现有技术更吸引人的几个优点。首先,AdaptFormer引入了轻量级模块,仅向ViT添加了不到2%的额外参数,同时它能够在不更新其原始预训练参数的情况下增加ViT的可转移性,在动作识别基准上显著优于现有的100%完全微调的模型。其次,它可以在不同的变形金刚中即插即用,并可扩展到许多视觉任务。第三,在五个图像和视频数据集上的大量实验表明,AdaptFormer大大提高了目标域的ViTs。例如,当只更新1.5%的额外参数时,与在Something-Something v2和HMDB51上完全微调的模型相比,它分别实现了大约10%和19%的相对改善。项目页面:http://www.shoufachen.com/adaptformer-page

1 Introduction

人们越来越有兴趣采用通用神经模型来处理各种不同的任务,因为它有利于减少对特定任务模型设计和训练的需求。最近,考虑到Transformer [71]在各个领域的成功,例如,自然语言处理(NLP) [24,9,72,78],视觉识别[27,69,80,56],密集预测[73,10,88,86,76],生成对抗网络(GAN) [46,42],强化学习(RL) [17,15,77],机器人[44,22]等,Transformer[71]在这一目标上显示出巨大的潜力。然而,计算机视觉中的现有文献倾向于关注具有特定任务权重场景的相同网络,其中单个网络用于从零开始训练或对特定数据集进行完全微调,使得当任务数量增加时,为每个数据集保持单独的模型权重是不可行的,特别是对于最新模型(例如,具有超过18亿个参数的ViT-G/14 [83])的不断增加的模型容量。

与现有技术不同,我们进入开发具有几乎相同权重的相同网络的方向,并且通过仅调整少于2%的参数来实现优于完全调整方法的性能,剩余的超过98%的参数在不同的任务之间共享挑战。第一个阶段位于预训练阶段,这需要能够学习易于应用于许多任务的良好概括表示的算法。自我监督学习的最新艺术[11,5,37,87,75,68,29]可以作为这个挑战的解决方案。第二个是我们在这项工作中的主要关注点,即建立一个有效的管道,通过尽可能少地调整参数并保持其余参数不变,使预训练阶段获得的模型适应各种下游任务。

虽然在NLP [6,40,62,63,52,50,41,82,55,36]中已经广泛研究了微调预训练模型,但是在vision中很少探讨这个主题,在vision中,模型参数的全时间调整仍然是调整vision transformers的主要策略。然而,完全微调不能满足普遍代表性的目标,因为它为每个任务分配一组独立的权重。线性探测是一种保持预训练模型固定的直接方法,只需为每个任务调整一个特定的轻量级分类头。然而,线性探测往往具有不令人满意的性能,并错过了追求强但非线性特征的机会[37],这些特征确实有利于深度学习。最近,Bahng等人[4]试图通过修改原始输入像素空间来调整预训练模型。Jia等人[45]提出了视觉提示调整(VPT)以使变压器模型适应下游视觉任务,该方法将几个可学习的参数(提示)预先添加到补丁嵌入中,并冻结整个预训练的主干。

在这项工作中,我们提出了一个轻量级模块,即AdaptFormer,通过更新AdaptFormer的权重来适应视觉变压器。我们从模型的角度引入可学习的参数,这与VPT不同,后者将可学习的参数插入到表征空间中。我们的AdaptFormer在概念上简单而有效。它由两个完全连接的层、非线性激活函数和比例因子组成。该模块与原始ViT模型的前馈网络(FFN)并联设置,如图2b所示。当处理图像和视频数据的可缩放视觉表征时(即,图像数据由小尺度的视觉表征组成,而视频数据由大尺度的视觉表征组成),这种设计被证明对于模型转移是有效的。如图1所示,与全调优策略相比,AdaptFormer仅使用大约0.1%的可调参数就可以在视频识别上获得相当的性能。与此同时,AdaptFormer的可调参数不到2%,在最高精度上超过全调优解决方案约10%。在微调预训练语言模型(PLM)中也提出了类似的方法[6,40,63,36]。

image-20220806110202970

image-20220806110404562

本文的主要贡献总结如下:(1)我们提出了一个简单而有效的框架,即AdaptFormer,用于使视觉转换器适应各种下游视觉识别任务,并避免彼此之间的灾难性干扰。据我们所知,这是第一个探索视频动作识别中有效微调的工作。(2)我们去除了许多设计选择,并证明了当参数按比例增加时AdaptFormer的优越鲁棒性。(3)对各种下游任务的大量实验表明,AdaptFormer明显优于现有的微调方法。通过展示AdaptFormer在多个视觉基准上的有效性,我们希望我们的工作可以激励研究社区重新思考计算机视觉中的微调机制,并朝着灵活而通用的视觉识别变压器模型的方向前进。

2 Related Works

在提出的AdaptFormer中,我们主要介绍了一个即插即用模块,用于有效地微调当前的视觉变压器模型。在这一节中,我们从两个角度对相关工作进行了文献综述,即视觉变形器和视觉变形器的有效迁移学习。

2.1 Transformer in Vision

Transformer架构最早是在[71]中介绍的,从那时起,它已经为自然语言处理(NLP)领域注入了新的活力[24,9]。受其巨大成功的启发,自ViTs [27]以来,计算机视觉领域的研究也发展到了Transformer时代。对长程关系进行建模的强大能力有助于Transformer完成各种视觉任务,包括图像分类[27,56,54],对象检测[10,88,20],语义/实例分割[76],视频理解[7,2,28,51],点云建模[85,35],3D对象识别[18],甚至低级处理[16,53,74]。此外,变形金刚通过大规模预训练提高了视觉识别性能[19,60,12,30,37,68,64]。在这种情况下,鉴于预先训练的变压器模型比以前流行的CNN主干网更大,一个悬而未决的问题是如何微调大视觉模型,以便它们可以适应更具体的下游任务。为了解决这个公开的问题,我们提出AdaptFormer以一种更加有效和高效的方式将vit从预训练的预文本转换到目标任务中。

2.2 Efficient Transfer learning for Transformers

迁移学习目标重新采用预先训练的模型(通过监督或非监督方式)作为起点,并进一步微调新任务的特定模型。在NLP领域,将大型预训练语言模型(PLM)[24,9]转移到下游任务中是长期以来流行的范式。传统技术[24,9]将所有网络参数设置为可学习的参数,并使它们适应目标任务。然而,随着模型规模的增长和具体任务的复杂性,传统范式不可避免地受到巨大计算负担的限制。NLP社区已经探索了几种参数高效迁移学习的方法,这些方法只设置几个可学习的参数,并对它们进行微调以提高效率。先锋作品主要可以从令牌[52,50]和网络角度[40,41,82,34]进行分类。基本上来说,令牌相关的方法[50,52]通常在多头自我关注层(MHSA [71])内的投影令牌前添加几个可学习的前缀向量/令牌。其背后的理念是在额外令牌信息的指导下,帮助预训练的模型理解下游任务。另一方面,网络相关方法[40,41]集成浅层模块,以提高模型的可移植性。引入的模块通过特征融合使产生的表示适应下游任务。

最近,随着更大规模数据集的出现[23,65,66,59,47],越来越多的计算机视觉研究人员采用了相应的范式,即首先进行预训练,然后进行微调,以推进视觉任务。对于第二阶段,传统方法通常在下游任务中采用全调谐技术。很少有人关注有效适应的领域,尤其是视觉变形器领域。受NLP中提示的启发,[45]在探索vit的有效适应时引入了可学习的令牌。我们从经验上发现,提示的表现受到了令牌规模的阻碍。也就是说,对于记号的数量是小规模的任务,例如图像分类,提示对于提高模型可移植性是有效的。然而,对于更大规模的表征,例如视频理解,提示呈现出有限的潜力。这一观察促使我们引入AdaptFormer,它在可伸缩可视令牌的场景中是有效的。

3 Approach

我们提出了AdaptFormer,用于在图像和视频领域中有效地将大型预训练视觉转换器模型转移到下游任务。AdaptFormer仅通过微调少量额外参数就获得了强大的迁移学习能力,避免了任务间的灾难性干扰。我们在图2b中展示了AdaptFormer的整体框架。

3.1 Preliminary and Notation

视觉变压器(vit)首先由[27]引入视觉识别。一个普通的视觉转换器基本上由一个补丁嵌入层和几个连续连接的编码器组成,如图2a所示。给定一个图像 x ∈ R H × W × 3 x ∈ R^{H×W ×3} xRH×W×3,面片嵌入层首先将样本x拆分并展平为连续的面片 x p ∈ R N × ( P 2 d ) x_p ∈ R^{N×(P^2d)} xpRN×(P2d),其中(H,W)表示输入图像的高度和宽度,(P,P)是每个图像面片的分辨率,d表示输出通道, N = H W / P 2 N = HW/P ^ 2 N=HW/P2是图像令牌的数量。预先考虑的[CLS]记号和图像记号xp的整体组合被进一步馈送到变换器编码器中用于注意力计算。

每个变换器编码器主要由两类子层组成,即多头自关注层(MHSA)和MLP层。在MHSA中,记号被线性投影,并进一步重新形成三个向量,即Q、和V。通过以下方式对Q、K和V执行自我注意计算:

其中 x 0 ’ x_0^{’} x0是由MHSA在第L层产生的令牌。输出令牌 x 0 ’ x_0^{’} x0被进一步发送到层Norm [3]和MLP块,该块由两个完全连接的层组成,其间有GELU激活[39]。该过程正式表述如下:

image-20220806111232452

其中 x l x_l xl是第l个编码器块的输出。在最后的变换层,CLS被用于最终的物体识别。我们建议读者在[27]中找到更多的细节。在我们的工作中,我们用AdaptMLP模块替换了MLP层,以达到高效微调的目的。

3.2 AdaptFormer

我们提出一个即插即用的瓶颈模块,即AdaptMLP2。我们将配有AdaptMLP的视觉转换器称为AdaptFormer。

Architecture.

AdaptFormer的设计原理简单而有效,如图2b所示。与传统的全微调机制相比,AdaptFormer用AdaptMLP取代了transformer编码器中的MLP模块,adapt MLP由两个子分支组成。左分支中的MLP层与原始网络相同,而右分支是额外引入的轻量级模块,用于特定任务的微调。具体地,为了限制参数的数量,右分支被设计为瓶颈结构,其包括具有参数 W d o w n ∈ R d × d W_{down}∈R^{d×d} WdownRd×d的向下投影层,具有参数 W u p ∈ R d ^ × d W_{up}∈R ^{\hat{d}×d} WupRd^×d的向上投影层,其中, d ^ \hat{d} d^是瓶颈中间维度,并且满足 d ^ ≪ d \hat{d} \ll d d^d此外,在这些投影层之间有一个ReLU层[1]用于非线性特性。这个瓶颈模块通过剩余连接经由比例因子s连接到原始MLP网络(左分支)。对于特定的输入特征 x l ′ x_l^{'} xl, AdaptMLP中的右分支产生适应的特征 x ~ l \tilde{x}_l x~l ,形式上经由

image-20220806112111066

image-20220806112706562

image-20220806112745783

Fine-tuning

在微调阶段,原始模型部件(图2b中的蓝色块)从预先训练的检查点加载权重并保持不变,避免下游任务之间的交互。新添加的参数(橙色块)在特定的数据域中随着特定任务的损失而更新

Inference

在微调之后,我们仍然像在先前微调状态中一样保持共享参数冻结,并且另外加载在先前阶段中微调的额外参数的权重。单一的整体模型能够在轻量级引入模块的帮助下适应多种任务。

3.3 Discussion

可调参数分析

我们的AdaptMLP模块是轻量级的。每层引入的参数总数为2×d×d+d+d,其中包括偏差参数。中间维度d与d相比是一个很小的值(即使d = 1,AdaptFormer仍能获得不错的性能,如第节所述。4.4).由于大多数共享参数是固定的,并且新引入的参数的数量很少(<预训练模型参数的2%),所以当添加更多下游任务时,总模型大小增长缓慢。

适应性

我们注意到,AdaptMLP是一个即插即用模块,可以自适应地插入现有的流行视觉变压器架构[27,56,73,80,21,26],因为所有主干共享相同的MLP层,即使它们在MHSA架构中有所不同(如图2b所示)。与我们的方法相比,我们注意到最近的提示相关方法将可训练参数插入到令牌空间中,如图3所示。他们将可学习参数预先计划到线性投影之前的嵌入标记中[52]或者线性投影之后的键和值标记中[45]。因此,提示相关方法不能直接适用于特殊的MHSA变量,尤其是考虑金字塔空间信息的方法[56,73]。此外,我们根据经验观察到,当补丁令牌的数量从图像增加到视频规模时,提示相关的方法表现不佳,如图1所示。

image-20220806113159269

总之,我们提出了一种策略,用于在一组可扩展的视觉识别任务(例如,图像域和视频域)上调整预训练的视觉转换器。它增加了有限的可学习的调优参数,同时实现了与全调优策略相当甚至更好的性能。此外,AdaptFormer可以作为各种识别任务的通用模块。

4 Experiments

image-20220806113248522

image-20220806113334038

image-20220806113341634

image-20220806113355388

image-20220806113413018

image-20220806113420326

image-20220806113444777

image-20220806113456990

5 Conclusion

我们提出了一个概念上简单而有效的框架,AdaptFormer,用于有效地使预训练的视觉转换器(ViT)骨干适应可扩展的视觉识别任务。通过引入AdaptMLP,我们的AdaptFormer能够微调轻量级模块,以产生适应多个下游任务的特性。在涵盖图像和视频领域的五个数据集上的大量实验验证了我们提出的方法能够以较小的计算代价提高ViT的可移植性。我们希望我们的工作将激励未来的研究,探索更有效的大型视觉模型的微调方法。一个限制是AdaptFormer仅用于这项工作中的识别任务,尚不清楚它是否能在识别以外的任务中工作良好,例如对象检测和语义分割。我们把它留给未来的探索。由于我们的方法是专门为有效的微调而设计的,我们目前没有预见到明显的不良道德/社会影响。

AdaptMLP代码

image-20220806113630441

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值