DiffRate详解:高效Vision Transformers的可微压缩率
0. 引言
就当前的Vision Transformers
(例如vit)而言,模型是大规模的。有学者提出使用令牌压缩
的方法,即通过修剪(删除)或合并
令牌来加速模型训练。尽管最近的先进方法取得了巨大的成功,但是仍需要对令牌的压缩比进行手动设置且数值是固定的。从压缩率出发,作者提出了DiffRate的概念。整篇文章的创新点分为三个部分:
压缩比是可训练的
。DiffRate可以将损失函数的梯度传播到压缩比
上,压缩比在以前的工作中被认为是一个不可微的超参数。在这种情况下,不同的层可以自动学习不同的压缩率,而不需要额外的开销。修剪和合并令牌可以同时进行
。而在以往的作品中,它们是相互隔离的。DiffRate达到了SOTA
。大量的实验表明,DiffRate达到了最先进的性能
。例如,通过将学习到的分层压缩率应用于现有的ViT-H (MAE)模型,实现了40%的FLOPs减少
和1.5倍的吞吐量提高
,在没有微调的情况下,在ImageNet上的精度下降了0.16%
,甚至优于以前的方法。
论文名称: