HaloNets:Scaling Local Self-Attention For Parameter Efficient Visual Backbones
本文提出了两种自注意力的扩展,可以提高模型的速度和准确性。还提出一种新的自注意力模型家族,优于EfficientNet,Vit等,代码即将开源。
Scaling Local Self-Attention For Parameter Efficient Visual Backbones
由于感受野与参数无关的缩放和内容相关的相互作用,与卷积与参数有关的缩放和内容无关的相互作用相反,自我注意有望改善计算机视觉系统。与基线卷积模型(如ResNet-50)相比,自我关注模型最近在精度参数权衡方面有了令人鼓舞的改进。在这项工作中,我们的目标是开发自我注意模型,不仅可以超越标准基线模型,甚至高性能的卷积模型。我们提出了自我注意的两个扩展,结合更有效的自我注意的实现,提高了这些模型的速度、内存使用和准确性。我们利用这些改进开发了一个新的自我关注模型家族——光环网,它在图像网分类基准的参数限制设置上达到了最先进的精度。在初步的迁移学习实验中,我们发现卤网模型优于更大的模型,并且具有更好的推理性能。在更难的任务上,比如对象检测和实例分割,我们简单的局部自我关注和卷积混合显示出比非常强的基线有所改进。这些结果标志着在传统上由卷积模型主导的环境中证明自我注意模型的有效性的又一步。