MOAT:Alternating Mobile Convolution and Attention brings strong Vision Models

paper: https://arxiv.org/pdf/2210.01820.pdf
code_tf: https://github.com/google-research/deeplab2
code_pt: https://github.com/RooKichenn/pytorch-MOAT

概要

设计MobileConv+Transformer轻量级异构Block,即MOAT,增强网络的特征表达力,同时提高了下游任务在公开数据集上的指标

基础模块

  • MBConv block
    =500x125
    其中,N1/N2为1x1conv,D为3x3DWconv,S为SE操作.

  • Transformer block
    =100x
    LN:layerNorm ,Att:Attention, M1/M2: MLP.

技术细节

  • Comparing MBConv and Transformer blocks

    • “inverted bottleneck”设计:1x1 conv升/降维;
    • capture the global information: SE模块+a global average pooling//self-attention,保持了空间分辨率;
    • downsampling operation : stride DW//average-pooling operation before the self-attention.
  • MOAT block
    DWConv高效编码局部交互信息+保留self-attention捕获空间全局信息的能力
    =100x
    N1/N2为1x1conv,D为3x3DWConv
    =100x

  • Macro-level network design
    =100x

实验

1.主要关注了其在分类任务中的表现,在224*224分辨率上,有绝对的优势。其对应的tiny版本在IN_1K上也有较好的结果。
=100x
=100x
2.关于MOAT block与downsampling layer设计的消融实验
=100x

小结

  • CNN+Vit的异构模块,虽不易部署,但其可作为teacher_model的候选之一,提高其他student的精度,同时infer时速度应该更快
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值