
©PaperWeekly 原创 · 作者 | 岳廷
研究方向 | 计算机视觉

引言

论文地址:
https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_RIFormer_Keep_Your_Vision_Backbone_Effective_but_Removing_Token_Mixer_CVPR_2023_paper.pdf
问题:Vision Transformer 已取得长足进步,token mixer,其优秀的建模能力已在各种视觉任务中被广泛证明,典型的 token mixer 为自注意力机制,推理耗时长,计算代价大。直接去除会导致模型结构先验不完整,从而带来显著的准确性下降。本文探索如何去掉 token mixer,并以 poolformer 为基准,探索在保证精度的同时,直接去掉 token mixer 模块!
解决方案:
1. 基于重参数化思想,研究没有 token mixer 的模型架构。
2. 通过改进的学习范式以突破简单无 token mixer 骨干的限制,并总结实验经验为 5 条优化策略!
利用所提出的优化策略,在保证原有精度情况下,速度提升至少 17%!!!


主要思想
从强大的教师模型(带有 token mixer)进行定制化蒸馏知识到学生模型(无token mixer)。使用重参数化思想来扩大学生网络的建模能力但保持其高效性,如图 2。简单的仿射变换被引入到学生模型中,用来替换训练时的 token mixer。仿射变换的参数可以在推理过程中合并入 LayerNorm [2] 中,最终实现学生模型无需 token mixer 。


动机
3.1 token mixer 耗时分析
token mixer 效果好,运行效率低,模型定量分析中,单 token mixer 模块可以增加高达 1433.6ms 的延迟,占骨干网络的 46.3%。因此,非常有必要针对 token mixer 模块进行改进。但以 poolformer 进行实验,直接去掉会有较大
本文探讨了去除Vision Transformer中的token mixer以提高效率的问题。通过一系列实验和优化策略,研究发现直接去掉token mixer会导致性能下降,但通过定制化的知识蒸馏方法,特别是block-wise知识蒸馏和仿射变换,能够在不降低精度的情况下实现速度提升。研究提出RIFormer,一种无token mixer的Transformer结构,通过重参数化和特定的训练范式,实现了与有token mixer模型相当的性能,同时提高了推理速度。
最低0.47元/天 解锁文章
1863

被折叠的 条评论
为什么被折叠?



