A convnet for the 2020s
摘要:Vision Transformers (ViTs)的引入很快取代了ConvNets,成为最先进的图像分类模型。ViT在应用于一般计算机视觉任务(如目标检测和语义分割)时面临困难。hierarchical
Transformers(例如,Swin Transformers)重新引入了几个ConvNet先验,使Transformers可以作为通用视觉主干,并在各种视觉任务中表现出显著的性能。然而,这种混合方法在很大程度上归功于transformer的固有优势,而不是卷积的固有感应偏差。在这项工作中,我们重新检查了设计空间,并测试了纯ConvNet可以实现的极限。我们逐渐将标准ResNet“现代化”到视觉转换器的设计,并发现了几个关键组件&#x