无自注意力照样高效！RIFormer开启无需token mixer的Transformer结构新篇章

最新推荐文章于 2025-04-03 17:13:20 发布

PaperWeekly

最新推荐文章于 2025-04-03 17:13:20 发布

阅读量512

点赞数 1

文章标签： transformer 深度学习人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/131198785

版权

本文探讨了去除Vision Transformer中的token mixer以提高效率的问题。通过一系列实验和优化策略，研究发现直接去掉token mixer会导致性能下降，但通过定制化的知识蒸馏方法，特别是block-wise知识蒸馏和仿射变换，能够在不降低精度的情况下实现速度提升。研究提出RIFormer，一种无token mixer的Transformer结构，通过重参数化和特定的训练范式，实现了与有token mixer模型相当的性能，同时提高了推理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 岳廷

研究方向 | 计算机视觉

引言

论文地址：

https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_RIFormer_Keep_Your_Vision_Backbone_Effective_but_Removing_Token_Mixer_CVPR_2023_paper.pdf

问题：Vision Transformer 已取得长足进步，token mixer，其优秀的建模能力已在各种视觉任务中被广泛证明，典型的 token mixer 为自注意力机制，推理耗时长，计算代价大。直接去除会导致模型结构先验不完整，从而带来显著的准确性下降。本文探索如何去掉 token mixer，并以 poolformer 为基准，探索在保证精度的同时，直接去掉 token mixer 模块！

解决方案：

1. 基于重参数化思想，研究没有 token mixer 的模型架构。

2. 通过改进的学习范式以突破简单无 token mixer 骨干的限制，并总结实验经验为 5 条优化策略！

利用所提出的优化策略，在保证原有精度情况下，速度提升至少 17%！！！

主要思想

从强大的教师模型（带有 token mixer）进行定制化蒸馏知识到学生模型（无token mixer）。使用重参数化思想来扩大学生网络的建模能力但保持其高效性，如图 2。简单的仿射变换被引入到学生模型中，用来替换训练时的 token mixer。仿射变换的参数可以在推理过程中合并入 LayerNorm [2] 中，最终实现学生模型无需 token mixer 。