《Focal Modulation Networks》
摘要
本文提出了 focal modulation networks (简称为FocalNets),其中自注意力(SA)由 focal modulation 模板替换来建模视觉中的token交互。聚焦调制包括三个组成部分:(
i
i
i)焦点上下文化,使用深度卷积层的堆叠实现,来编码由短到长的 visual contexts ,(
i
i
ii
ii)门控聚合选择性地对每个查询token收集上下文,进入modulator中,接着(
i
i
i
iii
iii) 逐元素仿射变换,将调制器注入查询。大量实验表明,FocalNets 表现出非凡的可解释性(图1),并且优于SoTA的SA类模型(例如:Swin和FocalTransformer),同时在图像分类、目标检测和分割任务上具有类似的计算成本。
具体来说,基础小型的FocalNets在ImageNet-1K上可以达到82.3%和 83.9% 的 top-1 精度。在 ImageNet-22K 上以
22
4
2
224^2
2242分辨率进行预训练后,在分辨率为
22
4
2
224^2
2242和
38
4
2
384^2
3842时分别可以达到 86.5% 和 87.3% 的 top-1 准确率。对于使用MaskRCNN【29_MaskRCNN】进行目标检测,使用
1
×
1\times
1×训练的FocalNet基线比对应的Swin版本高出 2.1 points,并且已经超过使用
3
×
3\times
3×训练的Swin模型(49.0 v.s. 48.5)。对于使用UPerNet【90_UPerNet】的语义分割,FocalNet基线在单尺度下优于Swin版本2.4个百分点,并在多尺度上超过Swin (50.5 v.s. 49.7)。使用 large FocalNet and Mask2Former【13_Mask2Former】,本文在ADE20K语义分割中实现了 58.5 mIoU,在 COCO Panoptic Segmentation 中实现了 57.9 PQ。使用 huge FocalNet and DINO 【106_DINO】,本文在 COCO minival and test-dev 中分别实现了 64.3 and 64.4 mAP,在 SwinV2-G【53_SwinV2】和 BEIT-3【84_BEiT】等更大的基于注意力的模型之上建立了新的 SoTA。这些令人欣喜的结果表明聚焦调制可能是我们在视觉中需要的成果。
1 前言
Transformers【79_Transformer】最初是为自然语言处理(NLP)提出的,自从 Vision Transformer(ViT)【22_ViT】的开创性工作以来,它已成为计算机视觉中的一种流行架构。ViT的前景已经在各种视觉任务中得到证明,包括图像分类【75_DeiT, 82_PVT、89、54、108、78】