ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法

16eca7f40cd1b91b23b817000d9cf97d.gif

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

9b368c1da1cd14a225740c476d52692b.png

论文标题:

Token Merging: Your ViT But Faster

论文链接:

https://arxiv.org/pdf/2210.09461.pdf

代码链接:

https://github.com/facebookresearch/ToMe

752b83d3177eca0da8d24fe4b93d24d0.png

动机&背景

过往的多篇工作 [1-3] 表明在 Transformer 结构中添加特定于视觉的归纳偏置能够以较少的计算量获得更好的性能表现。过往的 token 剪枝方法存在几大不足:a)修剪导致的信息丢失会损害模型性能;b)现有方法都需要重新训练模型才能保持较高的性能;c)大多现有方法不能加快训练速度;d)不同输入的 token 修剪数量不一致,导致批处理推理不可行。

与此同时,原始的 ViT 结构有着许多理想的特性:a)内部简单的矩阵乘法更适合并行计算;b)支持强大的自监督预训练技术(例如 MAE [4]);c)没有过多的先验假设,很容易扩展到多模态任务;d)易于规模缩放,能够很好地推广到大模型。

因此,本文提出了一种无需训练的、只降低 FLOPs 的类 token 剪枝方法 ToMe(Token Merging),该方法在原始 ViT 结构,利用一种通用且快速的匹配算法渐进式地将 ViT 结构的 tokens 进行融合,以克服过往 token 剪枝方法的不足。

该算法在只损失 0.2~0.3% 精度的情况下,在最先进的 ViT-L@512 和 ViT-H@518 可实现两倍推理速度的提升。不同于过往的方法,ToMe 也可以在训练阶段获得速度收益。该方法在图像、视频和音频任务重均获得了更好的准确率和速度综合表现。

f542ec5cd7f10b9c4bd81d51608a9980.png

方法:Token Merging

如第一小节分析的那样,本文的目标是设计一个 token 融合模块,将其插入现有的 ViT [5]

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值