MobileFormer-MobileNet和Transformer的相结合得结构

最新推荐文章于 2024-09-14 10:40:15 发布

skyfengye

最新推荐文章于 2024-09-14 10:40:15 发布

阅读量717

点赞数

分类专栏：论文推荐文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/nijiayan123/article/details/119892991

版权

论文推荐专栏收录该内容

32 篇文章 13 订阅

订阅专栏

看到了一篇比较有意思的论文Mobile-Former: Bridging MobileNet and Transformer 。在论文中，作者提出了一个并行设计的双向连接MobileNet和Transformer的结构Mobile-Former。这种结构利用了MobileNet在局部信息处理和Transformer的在全局交互方面的优势，这样的连接可以实现局部和全局特征的双向融合。不同于现有的Vision Transformer，Mobile-Former中的Transformer包含很少的、随机初始化的tokens，因此计算量非常小。通过用一个非常lightweight的cross attention将MobileNet和Transformer连接起来，使得MobileFormer不仅计算量非常小，而且也能拥有超强的表征能力。在ImageNet分类任务上，从25M到500M FLOPs的复杂度下，所提出的Mobile-Former方案均取得了优于MobileNetV3的性能。例如，它在294M FLOPs上达到了77.9%的Top-1准确率，比MobileNetV3增加了1.3%，但节省了17%的计算量。当转移到目标检测任务上时，Mobile-Former的性能比MobileNetV3高出8.6AP。