【阅读笔记】HOW DO VISION TRANSFORMERS WORK?
Abstract
论文围绕三点展开:
1.MSA通过平缓神经网络的loss landscape提升准确度和泛化能力,这种能力来自于data specificity而不是long-range dependency(联系两个较远pixel的关系)。
2.MSA是低通滤波器,Conv是高通滤波器,它们功能互补。
3.提出AlterNet,用MSA块代替一个stage结束时的conv块。
1.Introduction
广泛的观点认为MSA的成功来自于弱归纳偏置(weak induc...
原创
2022-02-22 16:20:17 ·
2952 阅读 ·
0 评论