1. ACmix介绍
1.1 摘要:卷积和自注意力是表示学习的两种强大技术,它们通常被认为是两种彼此不同的同行方法。 在本文中,我们表明它们之间存在很强的潜在关系,从某种意义上说,这两种范式的大量计算实际上是通过相同的操作完成的。 具体来说,我们首先证明内核大小为 k×k 的传统卷积可以分解为 k2 个单独的 1×1 卷积,然后进行移位和求和操作。 然后,我们将自注意力模块中的查询、键和值的投影解释为多个 1×1 卷积,然后计算注意力权重和值的聚合。 因此,两个模块的第一阶段都包括类似的操作。 更重要的是,与第二级相比,第一级贡献了主要的计算复杂性(通道大小的平方)。 这种观察自然地导致了这两个看似不同的范式的优雅整合,即一个混合模型,它既享受自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力对应物相比具有最小的计算开销。 大量实验表明,我们的模型在图像识别和下游任务方面比竞争基线取得了持续改进的结果。
官方论文地址: