【FocalNet】Focal Modulation Networks 译读笔记

songyuc

已于 2023-04-14 17:08:32 修改

阅读量1.2k

点赞数

文章标签： FocalNet

于 2023-04-06 16:07:11 首次发布

本文链接：https://blog.csdn.net/songyuc/article/details/129991929

版权

《Focal Modulation Networks》

摘要

本文提出了 focal modulation networks （简称为FocalNets），其中自注意力（SA）由 focal modulation 模板替换来建模视觉中的token交互。聚焦调制包括三个组成部分：（ $i$ ）焦点上下文化，使用深度卷积层的堆叠实现，来编码由短到长的 visual contexts ，（ $ii$ ）门控聚合选择性地对每个查询token收集上下文，进入modulator中，接着（ $iii$ ）逐元素仿射变换，将调制器注入查询。大量实验表明，FocalNets 表现出非凡的可解释性（图1），并且优于SoTA的SA类模型（例如：Swin和FocalTransformer），同时在图像分类、目标检测和分割任务上具有类似的计算成本。
在这里插入图片描述
具体来说，基础小型的FocalNets在ImageNet-1K上可以达到82.3%和 83.9% 的 top-1 精度。在 ImageNet-22K 上以 $224^2$ 分辨率进行预训练后，在分辨率为 $224^2$ 和 $384^2$ 时分别可以达到 86.5% 和 87.3% 的 top-1 准确率。对于使用MaskRCNN【29_MaskRCNN】进行目标检测，使用 $1\times$ 训练的FocalNet基线比对应的Swin版本高出 2.1 points，并且已经超过使用 $3\times$ 训练的Swin模型（49.0 v.s. 48.5）。对于使用UPerNet【90_UPerNet】的语义分割，FocalNet基线在单尺度下优于Swin版本2.4个百分点，并在多尺度上超过Swin (50.5 v.s. 49.7)。使用 large FocalNet and Mask2Former【13_Mask2Former】，本文在ADE20K语义分割中实现了 58.5 mIoU，在 COCO Panoptic Segmentation 中实现了 57.9 PQ。使用 huge FocalNet and DINO 【106_DINO】，本文在 COCO minival and test-dev 中分别实现了 64.3 and 64.4 mAP，在 SwinV2-G【53_SwinV2】和 BEIT-3【84_BEiT】等更大的基于注意力的模型之上建立了新的 SoTA。这些令人欣喜的结果表明聚焦调制可能是我们在视觉中需要的成果。

1 前言

Transformers【79_Transformer】最初是为自然语言处理（NLP）提出的，自从 Vision Transformer（ViT）【22_ViT】的开创性工作以来，它已成为计算机视觉中的一种流行架构。ViT的前景已经在各种视觉任务中得到证明，包括图像分类【75_DeiT, 82_PVT、89、54、108、78】