
论文:https://arxiv.org/abs/2101.11605
代码:https://github.com/mlpc-ucsd/CoaT
本文将介绍的是视觉Transformer的新backbone,之前有代表性的Transformer主干网络有:
ViT:用Transformer完全替代CNN
媲美CNN!Facebook提出DeiT:高效图像Transformer,在ImageNet上达84.4%准确率!
现在有非常多的工作就是基于ViT魔改,Amusi 觉得本文分享的BoTNet 应该能助燃视觉Transformer 这把火!
通过仅在ResNet中,用Multi-Head Self-Attention (MHSA)来替换3 × 3 convolution,并且不进行其他任何更改(如图1所示)
本文介绍了BoTNet,一种基于ResNet的视觉Transformer架构,它通过替换3×3卷积层为Multi-Head Self-Attention模块,保持其他设计不变,提升视觉Transformer性能。相比于ViT和DeiT,BoTNet在保持高效的同时可能带来更佳的图像识别表现。
761

被折叠的 条评论
为什么被折叠?



