Mobile-Former: Bridging MobileNet and Transformer论文简述

        本文的核心思想,就是将mobilenet与transformer结合起来,通过mobilenet提取局部特征,transformer来提取全局特征。比较突出的是,本文采用了一种全新的并行结构,而不是之前的将cnn模型穿插在VIT中的方法,并且通过bridge,将全局与局部特征进行融合。结构如图所示:

                

         mobilenett以图像为输入堆叠mobile block(或inverted bottleneck)。它利用高效的depthwise和pointwise卷积来提取像素级的局部特征。transformer以一些可学习的token作为输入,与传统的VIT不同,这里的输入包含非常少的随机初始化的token(例如少于6个token),来降低计算成本。叠加multi-head attention和前馈网络(FFN)。这些token用于对图像的全局特征进行编码。

        可以看到,在准确率相近的模型中,Mobile-Former模型有相比小的计算量

        模型的内部结构如图:

 

        可以看到对于mobilnet->former模块来说,输入为原输入与局部特征融合做attention,计算公式如图:

        而对于former->mobilnet模块来说,输入为原输入与全局特征融合做attention,计算公式如图:

        同时,作者还最后,还从三个方面介绍了改方法的可解释性,这里就不多介绍。

        如有错误,欢迎批评指正!

        

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值