©PaperWeekly 原创 · 作者 | 岳廷
研究方向 | 计算机视觉
引言
论文地址:
https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_RIFormer_Keep_Your_Vision_Backbone_Effective_but_Removing_Token_Mixer_CVPR_2023_paper.pdf
问题:Vision Transformer 已取得长足进步,token mixer,其优秀的建模能力已在各种视觉任务中被广泛证明,典型的 token mixer 为自注意力机制,推理耗时长,计算代价大。直接去除会导致模型结构先验不完整,从而带来显著的准确性下降。本文探索如何去掉 token mixer,并以 poolformer 为基准,探索在保证精度的同时,直接去掉 token mixer 模块!
解决方案:
1. 基于重参数化思想,研究没有 token mixer 的模型架构。
2. 通过改进的学习范式以突破简单无 token mixer 骨干的限制,并总结实验经验为 5 条优化策略!
利用所提出的优化策略,在保证原有精度情况下,速度提升至少 17%!!!
主要思想
从强大的教师模型(带有 token mixer)进行定制化蒸馏知识到学生模型(无token mixer)。使用重参数化思想来扩大学生网络的建模能力但保持其高效性,如图 2。简单的仿射变换被引入到学生模型中,用来替换训练时的 token mixer。仿射变换的参数可以在推理过程中合并入 LayerNorm [2] 中,最终实现学生模型无需 token mixer 。
动机
3.1 token mixer 耗时分析
token mixer 效果好,运行效率低,模型定量分析中,单 token mixer 模块可以增加高达 1433.6ms 的延迟,占骨干网络的 46.3%。因此,非常有必要针对 token mixer 模块进行改进。但以 poolformer 进行实验,直接去掉会有较大