某鱼多个模块打包https://m.tb.cn/h.g7kxzvI?tk=9WH33YU4JYc 可以直接使用。
本文提出了一种轻量级视觉变压器模型CloFormer,该模型可有效捕获高频局部信息和低频全局信息。主要创新包括:
-
AttnConv模块:作者介绍了一个名为AttnConv(注意力卷积)的新模块,该模块将卷积的优点与共享权重以及自我注意力与内容感知权重的局部感知相结合。AttnConv 使用具有共享权重的深度卷积来聚合局部特征,然后使用非线性比普通自注意力更强的门控机制生成内容感知权重。这些内容感知权重用于增强由共享卷积权重提取的局部特征。
-
双分支架构:CloFormer 具有双分支结构 - 一个使用 AttnConv 捕获高频信息的本地分支,以及一个使用标准注意力和池化的全局分支来捕获低频全局信息。两个分支的输出被融合在一起,以组合局部和全局表示。
-
模型变体:本文介绍了三种模型变体 - CloFormer-XXS、CloFormer-XS 和 CloFormer-S,它们具有不同的模型大小,针对移动设备上的不同计算预算。