先回顾一下用于视觉识别的自注意力方法,比如SANet、ViT、DETR等: 本文将介绍的是视觉Transformer的新backbone,之前有代表性的Transformer主干网络有: ViT:用Transformer完全替代CNN