论文快读:AdaptFormer

AdaptFormer

港大,腾讯AI实验室,港中文贡献的文章:AdaptFormer: Adapting Vision Transformers for
Scalable Visual Recognition ( arXiv:2205.13535v1 [cs.CV] 26 May 2022 )
他们觉得最新的transformer文章做的same network with task-specific weight工作,用的是同样的网络,但是对每个下游任务都要fine-tune模型,这样的模型是不可拓展的,每搞一个数据集就要在上边fully finetune, 尤其是现在像ViT-G/14这样有18亿参数的大模型,训练时的算力和存储负担很重。所以他们要搞same network with almost same weights, 就是 不仅网络要一样,应用到下游任务,权重也尽可能一样。只需要训练很少的参数,其他大部分参数是固定的,这些固定的参数就可以跨任务共享。他的引言也提到,要做这件事需要1)算法能学到很好泛化性的表达,2)构建一种高效的pileline去适配预训练模型到许多下游任务中,尽可能少地finetuen参数。他们认为现在的自监督已经解决第一个问题了,他们要解决的是第二个问题。所以啊,这篇文章讲的是你有了预训练模型后怎么去finetune的故事。
这是不是有点像linear probing? 文章说linear probing不能学习到强的非线性特征,而且性能渣渣。他们的工作更像VPT(Visual Prompt Tuning), VPT在patch embedding那里增加可学习的参数同时冻结整个主干只finetuen embedding部分。这篇文章的第一张图放的是他们在SSv2数据集上全面打败VPT
在这里插入图片描述
由于我以前没听说过VPT, 也不了解SSv2这个数据集,所以我看到这张放在最前面的主图并不是很激动。

本文的方法和VPT不一样的地方在于,用的AdaptFormer是加到Transformer的MHSA(multi-head self-attention layer)上的
在这里插入图片描述
我理解啊,它应用到不同下游任务,只需要在原预训练模型上插入右边Down Relu Up S那一串东西,然后fine tune Up和Down两个全连接层。

他们主要的实验结果在分类上表现和full tuning几乎一样,说明只finetune很少参数的目的达到了,只不过这几个数据集我觉得过于简单,让人看得不是很激动。但是,在视频识别任务上,比full tune方法涨5到10个点,在监督预训练模型上finetune也比fulltune高10来个点。不过CVPR2021有篇也是自监督的文章A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning(Kaiming五作)把HMDB51刷到了75,感觉的又不是很激动了。
在这里插入图片描述
最后文章希望可以激励更多研究者探索更加高效的fine-tuning方法到大型视觉模型上,同时也指出本文只在识别任务上尝试了这种方法,希望以后再目标检测和分割上尝试。
方法和分析我没有细看,只是看了引言,结论和一点视频,总的感觉就是这个方向应该是工业界喜欢并需要的,就是实验偏弱,也许这个团队赶着去发别的文章?

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值