Focal Modulation Networks-焦点调制网络

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


摘要

焦点调制网络(简称 FocalNets)目的将自我注意 (SA) 完全被焦点调制模块取代,用于模拟视觉中的标记交互。焦点调制包括三个部分:(1) 焦点语境化,使用深度卷积层堆叠实现,以编码从短距离到长距离的视觉上语境,(2) 门控聚合:选择性地将语境收集到每个查询标记的调制器中; (3) 元素仿射变换,将调制器注入查询中。
广泛的实验表明,FocalNets 具有非凡的可解释性(图 1),在图像分类、物体检测和分割任务中,其计算成本与 SoTA(state-of-the-art”的缩写,意为“最先进的”) SA 类似(如 Swin 和 Focal Transformers),但性能却优于 SoTA SA。FocalNets的小型和基础版本在ImageNet-1K上分别达到了82.3%和83.9%的top-1准确率。在ImageNet-22K上以224×224分辨率进行预训练后,微调到224×224和384×384分辨率时分别达到了86.5%和87.3%的top-1准确率。在使用Mask R-CNN进行目标检测时,FocalNet基础版本以1×训练计划超越了Swin对照组2.1个点,并且已经超过了使用3×训练计划的Swin(49.0对48.5)。在使用UPerNet进行语义分割时,FocalNet基础版本在单尺度下超越了Swin 2.4个点,并且在多尺度下也超过了Swin(50.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值