Early Convolutions Help Transformers See Better
Early Convolutions Help Transformers See BetterAbstractVIT优化较为困难,对参数选择比较敏感。网络传统多层3*3conv,每层后加BN、ReLU,到encoder前时控制与原ViT输入相同虽然ViT论文中也有这种结构,但论文中说明这种结构的分数是要略微逊色的,但这篇论文证明了这种结构可以更容易优化。实验结果用CNN代替patch结构会使:收敛更快不再局限于SGD(SGC和AdamW的差距较小)对超参数不那么敏感weigh
原创
2022-05-02 14:36:25 ·
814 阅读 ·
0 评论