paper: https://arxiv.org/pdf/2210.01820.pdf
code_tf: https://github.com/google-research/deeplab2
code_pt: https://github.com/RooKichenn/pytorch-MOAT
概要
设计MobileConv+Transformer轻量级异构Block,即MOAT,增强网络的特征表达力,同时提高了下游任务在公开数据集上的指标
基础模块
-
MBConv block
其中,N1/N2为1x1conv,D为3x3DWconv,S为SE操作. -
Transformer block
LN:layerNorm ,Att:Attention, M1/M2: MLP.
技术细节
-
Comparing MBConv and Transformer blocks
- “inverted bottleneck”设计:1x1 conv升/降维;
- capture the global information: SE模块+a global average pooling//self-attention,保持了空间分辨率;
- downsampling operation : stride DW//average-pooling operation before the self-attention.
-
MOAT block
DWConv高效编码局部交互信息+保留self-attention捕获空间全局信息的能力
N1/N2为1x1conv,D为3x3DWConv
-
Macro-level network design
实验
1.主要关注了其在分类任务中的表现,在224*224分辨率上,有绝对的优势。其对应的tiny版本在IN_1K上也有较好的结果。
2.关于MOAT block与downsampling layer设计的消融实验
小结
- CNN+Vit的异构模块,虽不易部署,但其可作为teacher_model的候选之一,提高其他student的精度,同时infer时速度应该更快