ICLR 2023 Oral | ToMe：无需训练的Token融合模型加速算法

最新推荐文章于 2024-07-19 13:59:11 发布

PaperWeekly

最新推荐文章于 2024-07-19 13:59:11 发布

阅读量556

点赞数

文章标签：算法人工智能深度学习机器学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/130537741

版权

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

论文标题：

Token Merging: Your ViT But Faster

论文链接：

https://arxiv.org/pdf/2210.09461.pdf

代码链接：

https://github.com/facebookresearch/ToMe

动机&背景

过往的多篇工作 [1-3] 表明在 Transformer 结构中添加特定于视觉的归纳偏置能够以较少的计算量获得更好的性能表现。过往的 token 剪枝方法存在几大不足：a）修剪导致的信息丢失会损害模型性能；b）现有方法都需要重新训练模型才能保持较高的性能；c）大多现有方法不能加快训练速度；d）不同输入的 token 修剪数量不一致，导致批处理推理不可行。

与此同时，原始的 ViT 结构有着许多理想的特性：a）内部简单的矩阵乘法更适合并行计算；b）支持强大的自监督预训练技术（例如 MAE [4]）；c）没有过多的先验假设，很容易扩展到多模态任务；d）易于规模缩放，能够很好地推广到大模型。

因此，本文提出了一种无需训练的、只降低 FLOPs 的类 token 剪枝方法 ToMe（Token Merging），该方法在原始 ViT 结构，利用一种通用且快速的匹配算法渐进式地将 ViT 结构的 tokens 进行融合，以克服过往 token 剪枝方法的不足。

该算法在只损失 0.2~0.3% 精度的情况下，在最先进的 ViT-L@512 和 ViT-H@518 可实现两倍推理速度的提升。不同于过往的方法，ToMe 也可以在训练阶段获得速度收益。该方法在图像、视频和音频任务重均获得了更好的准确率和速度综合表现。

方法：Token Merging

如第一小节分析的那样，本文的目标是设计一个 token 融合模块，将其插入现有的 ViT [5]

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ICLR 2023 Oral | ToMe：无需训练的Token融合模型加速算法

©Paperweekly 原创 · 作者 | An.单位 | 中科院自动化所研究方向 | 计算机视觉、模型压缩论文标题：TokenMerging:YourViTButFaster论文链接：https://arxiv.org/pdf/2210.09461.pdf代码链接：https://github.com/facebookresearch/ToMe动机&背景过往的多篇工作 [1-...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。