【FocalNet】Focal Modulation Networks 译读笔记

《Focal Modulation Networks》

摘要

本文提出了 focal modulation networks (简称为FocalNets),其中自注意力(SA)由 focal modulation 模板替换来建模视觉中的token交互。聚焦调制包括三个组成部分:( i i i)焦点上下文化,使用深度卷积层的堆叠实现,来编码由短到长的 visual contexts ,( i i ii ii)门控聚合选择性地对每个查询token收集上下文,进入modulator中,接着( i i i iii iii) 逐元素仿射变换,将调制器注入查询。大量实验表明,FocalNets 表现出非凡的可解释性(图1),并且优于SoTA的SA类模型(例如:Swin和FocalTransformer),同时在图像分类、目标检测和分割任务上具有类似的计算成本。
在这里插入图片描述
具体来说,基础小型的FocalNets在ImageNet-1K上可以达到82.3%和 83.9% 的 top-1 精度。在 ImageNet-22K 上以 22 4 2 224^2 2242分辨率进行预训练后,在分辨率为 22 4 2 224^2 2242 38 4 2 384^2 3842时分别可以达到 86.5% 和 87.3% 的 top-1 准确率。对于使用MaskRCNN【29_MaskRCNN】进行目标检测,使用 1 × 1\times 1×训练的FocalNet基线比对应的Swin版本高出 2.1 points,并且已经超过使用 3 × 3\times 3×训练的Swin模型(49.0 v.s. 48.5)。对于使用UPerNet【90_UPerNet】的语义分割,FocalNet基线在单尺度下优于Swin版本2.4个百分点,并在多尺度上超过Swin (50.5 v.s. 49.7)。使用 large FocalNet and Mask2Former【13_Mask2Former】,本文在ADE20K语义分割中实现了 58.5 mIoU,在 COCO Panoptic Segmentation 中实现了 57.9 PQ。使用 huge FocalNet and DINO 【106_DINO】,本文在 COCO minival and test-dev 中分别实现了 64.3 and 64.4 mAP,在 SwinV2-G【53_SwinV2】和 BEIT-3【84_BEiT】等更大的基于注意力的模型之上建立了新的 SoTA。这些令人欣喜的结果表明聚焦调制可能是我们在视觉中需要的成果

1 前言

Transformers【79_Transformer】最初是为自然语言处理(NLP)提出的,自从 Vision Transformer(ViT)【22_ViT】的开创性工作以来,它已成为计算机视觉中的一种流行架构。ViT的前景已经在各种视觉任务中得到证明,包括图像分类【75_DeiT, 82_PVT、89、54、108、78】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值