#今日论文推荐# 超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer
本文提出了Neighborhood Attention Transformer(NAT),NAT是一种集高效、准确和可扩展的分层Transformer,Neighborhood Attention是一种简单而灵活的Self Attention
机制,它将每个query的感受野扩展到其最近的邻近像素,并随着感受野的增大而接近Self-Attention
。
在FLOPs和内存使用方面,与相同的感受野大小带有Shifted Window Attention的Swin-Transformer相同,但是NAT受到的约束更少。
此外,NA还包含了局部归纳偏差,这消除了的额外操作,如像素移动。
NAT-Tiny在ImageNet上达到83.2%的Top-1精度,只有4.3 GFLOPs和28M参数,在MS-COCO上的mAP为51.4%,ADE20k上的mIoU为48.4%。
论文题目:Neighborhood Attention Transformer
详细解读:https://www.aminer.cn/research_report/6267576b7cb68b460fa90abe?download=falsehttps://www.aminer.cn/research_report/6267576b7cb68b460fa90abe?download=false
AMiner链接:https://www.aminer.cn/?f=cs