无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章

本文探讨了去除Vision Transformer中的token mixer以提高效率的问题。通过一系列实验和优化策略,研究发现直接去掉token mixer会导致性能下降,但通过定制化的知识蒸馏方法,特别是block-wise知识蒸馏和仿射变换,能够在不降低精度的情况下实现速度提升。研究提出RIFormer,一种无token mixer的Transformer结构,通过重参数化和特定的训练范式,实现了与有token mixer模型相当的性能,同时提高了推理速度。
摘要由CSDN通过智能技术生成

96e2ca4c1ed47ff823543d6b660a8c0e.gif

©PaperWeekly 原创 · 作者 | 岳廷

研究方向 | 计算机视觉

71ee9c5f693f58e5d75b4b413a0a694d.png

引言

4a7e0d33254230b8a40e7643db3a4007.png

论文地址:

https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_RIFormer_Keep_Your_Vision_Backbone_Effective_but_Removing_Token_Mixer_CVPR_2023_paper.pdf

问题:Vision Transformer 已取得长足进步,token mixer,其优秀的建模能力已在各种视觉任务中被广泛证明,典型的 token mixer 为自注意力机制,推理耗时长,计算代价大。直接去除会导致模型结构先验不完整,从而带来显著的准确性下降。本文探索如何去掉 token mixer,并以 poolformer 为基准,探索在保证精度的同时,直接去掉 token mixer 模块!

解决方案

1. 基于重参数化思想,研究没有 token mixer 的模型架构。

2. 通过改进的学习范式以突破简单无 token mixer 骨干的限制,并总结实验经验为 5 条优化策略!

利用所提出的优化策略,在保证原有精度情况下,速度提升至少 17%!!!

4923de32bdfccd78f33be8f0e0a0bc2d.png

b2c716713c96ad676138c92b459c70ec.png

主要思想

从强大的教师模型(带有 token mixer)进行定制化蒸馏知识到学生模型(无token mixer)。使用重参数化思想来扩大学生网络的建模能力但保持其高效性,如图 2。简单的仿射变换被引入到学生模型中,用来替换训练时的 token mixer。仿射变换的参数可以在推理过程中合并入 LayerNorm [2] 中,最终实现学生模型无需 token mixer 。

bbb0a6c1926b63fa9089f848b1645e7d.png

7372895b6559ecb78bb8df8d5bb334c9.png

动机

3.1 token mixer 耗时分析

token mixer 效果好,运行效率低,模型定量分析中,单 token mixer 模块可以增加高达 1433.6ms 的延迟,占骨干网络的 46.3%。因此,非常有必要针对 token mixer 模块进行改进。但以 poolformer 进行实验,直接去掉会有较大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值