#今日论文推荐# 用Res2Net思想和动态kernel-size再设计 ViT,超越MobileViT
为了追求不断提高的准确性,通常会开发大型的网络模型。此类模型需要大量计算资源,因此无法部署在边缘设备上。由于边缘设备在多个应用领域中都有落地,因此构建资源高效的通用网络具有很大的价值。
在这项工作中有效地结合了 CNN
和 Transformer
模型的优势,并提出一种新的高效混合架构 EdgeNeXt
。特别是在 EdgeNeXt
中,引入了Split Depth-wise Transpose Attention
(SDTA
) 编码器,SDTA
将输入张量拆分为多个通道组,并利用深度卷积和跨通道维度的Self-Attention
来隐式扩大感受野并编码多尺度特征。
在分类、检测和分割任务上的广泛实验揭示了所提出方法的优点,EdgeNeXt
在计算要求相对较低的情况下优于最先进的方法。1.3M 参数的 EdgeNeXt
模型在 ImageNet-1K
上实现了 71.2% 的 top-1 准确率,以 2.2% 的增益和 28% 的 FLOP 降低超过了 MobileViT
。此外,5.6M 参数的 EdgeNeXt
模型在 ImageNet-1K
上实现了 79.4% 的 top-1 准确率。
论文题目:EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications
详细解读:https://www.aminer.cn/research_report/62b3f4b87cb68b460fd9654fhttps://www.aminer.cn/research_report/62b3f4b87cb68b460fd9654f
AMiner链接:https://www.aminer.cn/?f=cs