TOKEN MERGING: YOUR VIT BUT FASTER

#Token Merging #Vision Transformers #Efficiency #ICLR 2023

摘要: 本文介绍了Token Merging (ToMe),一种简单的方法,可以在不需要训练的情况下提高现有ViT模型的吞吐量。ToMe通过一种通用且轻量级的匹配算法逐渐结合相似的tokens,这种方法的速度与剪枝一样快,但更准确。现成的ToMe可以将ViT-L @ 512和ViT-H @ 518模型在图像上的吞吐量提高2倍,将ViT-L在视频上的吞吐量提高2.2倍,每种情况下的准确率仅下降0.2-0.3%。ToMe也可以在训练期间轻松应用,实际上将MAE在视频上的微调训练速度提高了2倍。通过训练使用ToMe,进一步最小化准确率下降,使得ViT-B在音频上的吞吐量提高2倍,仅损失0.4%的mAP。从定性上看,我们发现ToMe将对象部分合并为一个token,甚至在视频的多个帧上也是如此。总的来说,ToMe在图像、视频和音频方面的准确性和速度与最先进的技术竞争。

主要方法/架构:

  • Token Merging (ToMe):在Transformer中逐渐合并相似的tokens,使用自定义的匹配算法。
  • Bipartite Soft Matching:一种高效的匹配算法,用于决定哪些tokens应该合并。
  • Proportional Attention:在合并tokens后,使用比例注意力来调整softmax注意力,以考虑tokens现在可能代表多个输入patch。

实验对比数据结果:

  • 图像实验:在ImageNet-1k上,使用ViT模型,ToMe在不训练的情况下提高了吞吐量,同时保持了与基线相近的准确率。
  • 视频实验:在Kinetics-400视频分类任务上,ToMe在不训练的情况下提高了吞吐量,并且在训练期间进一步提高了吞吐量,同时减少了训练时间。
  • 音频实验:在AudioSet-2M音频分类任务上,ToMe在不训练的情况下提高了吞吐量,并且训练后的模型在准确率上仅略有下降。

图示:

  • 图1展示了Token Merging的流程,包括在Transformer块之间合并相似的patches。
  • 图2展示了不同匹配算法的比较,ToMe的双分图软匹配算法几乎与随机剪枝tokens一样快,同时保持了高准确率。
  • 图3展示了在ImageNet-1k上应用ToMe的模型范围,包括不同的ViT模型,以及与基线的比较。
  • 图4和图6展示了ToMe在图像和视频上的可视化结果,展示了如何将对象的部分合并为一个token。

结论: ToMe通过逐渐合并tokens来提高ViT模型的吞吐量,同时保持了与最先进的技术竞争的准确性。ToMe可以自然地利用输入中的冗余,适用于任何具有冗余的模态。在图像、视频和音频上的广泛实验表明,ToMe在每个领域都能达到与最先进的技术竞争的速度和准确性。ToMe可以被视为一种“自然”的层次模型,类似于Swin或MViT,但使用的是纯Transformer块。ToMe可以与这些方法结合,创造出一种全新的架构。此外,ToMe在大型模型上表现良好,可以减少训练时间和内存使用,意味着它可以成为训练巨大模型的核心组件。未来的工作将探索这些可能性,并希望ToMe能够引领更好、更高效的Transformer的创造。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值