Early Convolutions Help Transformers See Better Abstract VIT优化较为困难,对参数选择比较敏感。 网络 传统多层3*3conv,每层后加BN、ReLU,到encoder前时控制与原ViT输入相同 虽然ViT论文中也有这种结构,但论文中说明这种结构的分数是要略微逊色的,但这篇论文证明了这种结构可以更容易优化。 实验结果 用CNN代替patch结构会使: 收敛更快不再局限于SGD(SGC和AdamW的差距较小)对超参数不那么敏感 weight decay是不能给BN和bias加的