论文快读：AdaptFormer

YiyangJump

已于 2022-07-08 12:28:53 修改

阅读量711

点赞数

分类专栏：论文阅读 cv 文章标签： transformer 深度学习计算机视觉

于 2022-05-29 01:10:40 首次发布

本文链接：https://blog.csdn.net/q1w2e3r4470/article/details/125025474

版权

论文阅读同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

AdaptFormer

港大，腾讯AI实验室，港中文贡献的文章：AdaptFormer: Adapting Vision Transformers for
Scalable Visual Recognition ( arXiv:2205.13535v1 [cs.CV] 26 May 2022 )
他们觉得最新的transformer文章做的same network with task-specific weight工作，用的是同样的网络，但是对每个下游任务都要fine-tune模型，这样的模型是不可拓展的，每搞一个数据集就要在上边fully finetune, 尤其是现在像ViT-G/14这样有18亿参数的大模型，训练时的算力和存储负担很重。所以他们要搞same network with almost same weights, 就是不仅网络要一样，应用到下游任务，权重也尽可能一样。只需要训练很少的参数，其他大部分参数是固定的，这些固定的参数就可以跨任务共享。他的引言也提到，要做这件事需要1)算法能学到很好泛化性的表达，2)构建一种高效的pileline去适配预训练模型到许多下游任务中，尽可能少地finetuen参数。他们认为现在的自监督已经解决第一个问题了，他们要解决的是第二个问题。所以啊，这篇文章讲的是你有了预训练模型后怎么去finetune的故事。
这是不是有点像linear probing? 文章说linear probing不能学习到强的非线性特征，而且性能渣渣。他们的工作更像VPT（Visual Prompt Tuning), VPT在patch embedding那里增加可学习的参数同时冻结整个主干只finetuen embedding部分。这篇文章的第一张图放的是他们在SSv2数据集上全面打败VPT
在这里插入图片描述
由于我以前没听说过VPT，也不了解SSv2这个数据集，所以我看到这张放在最前面的主图并不是很激动。

本文的方法和VPT不一样的地方在于，用的AdaptFormer是加到Transformer的MHSA(multi-head self-attention layer)上的
在这里插入图片描述
我理解啊，它应用到不同下游任务，只需要在原预训练模型上插入右边Down Relu Up S那一串东西，然后fine tune Up和Down两个全连接层。

他们主要的实验结果在分类上表现和full tuning几乎一样，说明只finetune很少参数的目的达到了，只不过这几个数据集我觉得过于简单，让人看得不是很激动。但是，在视频识别任务上，比full tune方法涨5到10个点，在监督预训练模型上finetune也比fulltune高10来个点。不过CVPR2021有篇也是自监督的文章A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning(Kaiming五作)把HMDB51刷到了75，感觉的又不是很激动了。
在这里插入图片描述
最后文章希望可以激励更多研究者探索更加高效的fine-tuning方法到大型视觉模型上，同时也指出本文只在识别任务上尝试了这种方法，希望以后再目标检测和分割上尝试。
方法和分析我没有细看，只是看了引言，结论和一点视频，总的感觉就是这个方向应该是工业界喜欢并需要的，就是实验偏弱，也许这个团队赶着去发别的文章？

YiyangJump

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文快读：AdaptFormer

AdaptFormer港大，腾讯AI实验室，港中文贡献的文章：AdaptFormer: Adapting Vision Transformers forScalable Visual Recognition ( arXiv:2205.13535v1 [cs.CV] 26 May 2022 )他们觉得最新的transformer文章做的same network with task-specific weight工作，用的是同样的网络，但是对每个下游任务都要fine-tune模型，这样的模型是不可
复制链接

扫一扫