AAAI 2025 | 免训练低成本!上海交大提出用于高效扩散模型的令牌剪枝方法

86e4300b34794cc0f07762808b9bdc95.gif

本篇分享 AAAI 2025 论文 SiTo: Training-Free and Hardware-Friendly Acceleration for Diffusion Models via Similarity-based Token Pruning,上海交通大学提出 SiTo,通过基于相似性的令牌剪枝为扩散模型提供无需训练且硬件友好的加速。

6fea500ad233fafd8d7063ce55bb84ea.png

5e072af9ce41a3c270dd0c87e0cab030.png

论文链接:

https://www.researchgate.net/publication/387204421_Training-Free_and_Hardware-Friendly_Acceleration_for_Diffusion_Models_via_Similarity-based_Token_Pruning

项目链接:

https://github.com/EvelynZhang-epiclab/SiTo

d0d53deac81690415219fba4e4c4d1bd.png

介绍

1.1 SiTo:加速扩散模型的创新解决方案

先前的研究者们通常通过减少采样步数或压缩去噪网络等方式来降低扩散模型的计算开销。然而,这些方法往往在一定程度上牺牲了生成质量。SiTo 提出了一种全新的思路,它通过引入基础令牌(Base Token)概念,自适应地剪去冗余的令牌,从而在保证高质量生成结果的同时实现显著加速。

1.2 SiTo 的三大核心创新

(I)最大相似性:基础令牌与所有其他令牌具有最高相似性,剪枝令牌则选择与基础令牌相似度最高的令牌,从而最小化恢复误差。

(II)均匀空间分布:基础令牌在图像的不同局部区域均匀分布,相邻令牌的相似性较高,用空间相邻的令牌恢复剪枝令牌更为合适,避免了误差集中。

(III)带有随机性的选择:为避免相邻时间步中令牌的重复剪枝,加入高斯噪声使基础令牌选择带有随机性,减少了剪去相同令牌的比例,从而有效避免了不平衡剪枝导致的质量下降。

如下图(b)所示,由于剪枝令牌是通过直接复制其最相似的基础令牌来恢复的,这些剪枝令牌往往会在所有后续的去噪步骤中保持较高的相似性,因此它们很可能在几乎所有的时间步中都被剪枝。这种极度不平衡的令牌剪枝可能会导致生成质量的显著下降。

为了解决这个问题,提出在不同令牌的相似度上添加高斯噪声,在基础令牌选择过程中引入随机性。如下图(a)所示,这种方法将相邻两个时间步中剪去相同令牌的比例从 97% 降低到 72%,有效避免了不平衡剪枝问题。

6fc4f1cf67febc50580e0c569ce3c535.png

1.3 SiTo 的显著优势

  1. 无损加速,内存压缩

SiTo 的应用效果显著,尤其在 COCO30K 和 ImageNet 数据集上,展示了强大的加速效果和内存压缩能力。例如,在 Stable Diffusion v1.5 中,应用 SiTo 方法后,加速达 1.9 倍,同时实现了 2.7 倍的内存压缩,并且 FID 值降低了 1.33,不仅加速了推理过程,还提升了生成质量。

  1. 硬件友好,低计算开销

SiTo 操作低成本、低内存占用,适合在 GPU 等硬件平台上并行计算,特别适用于边缘设备和实时应用。

  1. 训练无关,数据无依赖

SiTo 不依赖训练或校准数据,免去额外训练步骤,具有极强的通用性和即插即用性,可广泛应用于不同数据集、模型和采样设置。

8275f8ab9be90c394a987107548bc4b1.png

方法

59eb18e8828026f53a782ff61e03aa54.png

SiTo 的方法流程

  1. 基础令牌选择:

计算所有令牌之间的余弦相似度。对于每个令牌,将它与所有其他令牌的相似度求和,得到该令牌的相似度得分(SimScore)。接着,向相似度得分中添加高斯噪声,以引入随机性,防止在不同时间步中选择相同的基础令牌和剪枝令牌。最后,选择在图像区域中具有最高噪声相似度得分(Noise SimScore)的令牌作为基础令牌。

  1. 剪枝令牌选择:

选择与基础令牌最相似的令牌作为剪枝令牌。

  1. 剪枝令牌恢复:

将未剪枝的令牌输入到神经网络层,然后通过从最相似的基础令牌中复制来恢复剪枝令牌。

69a5bed9cbbdad02323e4789fd2593b1.png

结果

视觉效果:SiTo 保留更多的图像细节,更加对齐文本提示,以及和原始模型生成的结果更吻合。

bdc42b3c8101af4166fea81ee8f6407f.png

数值结果:在 ImageNet 和 COCO30K 数据集上的结果。

5b7d6f6a2828be4138711e4394bfbaaa.png

7868fb76f8a8f2d3de255999547348f0.png

消融

4.1 剪枝令牌选择方法的消融实验

对以下六种基础令牌选择方法进行了消融实验:

  1. 始终选择 2x2 图块中的左上角令牌

  2. 在全局范围内随机选择 25% 的令牌

  3. 在全局范围内选择具有最高 SimScore 的令牌

  4. 在 2x2 图块中随机选择一个令牌

  5. 在 2x2 图块中选择具有最高 SimScore 的令牌

  6. 向 SimScore 添加高斯噪声后,选择 2x2 图块中具有最高得分的令牌

如下表所示,实验得出了两个关键结论:

03a85095a099651baa9d48de930f6218.png

  1. 时间分布均匀性

基础令牌应该在不同的去噪时间步之间保持均匀分布。策略 I,即每个时间步始终选择相同的令牌,表现最差。策略 VI 优于策略 V,因为在策略 VI 中引入的随机噪声使得不同时间步的基础令牌选择有所变化。类似的推理解释了为什么策略 II 优于策略 III。

此外,还对策略 V 和策略 VI 进行了视觉分析。如下图 a 所示,引入噪声可以防止某些令牌在多个时间步中被反复剪枝,从而使得图像呈现出更丰富的细节。

3c887e5fd39fd3b4b4c6cc7d9c82bc38.png

  1. 空间分布均匀性

基础令牌还应保持空间上的均匀分布。策略 IV、策略 V 和策略 VI 的表现优于策略 II 和策略 III,这表明在局部图块内选择基础令牌要比全局选择效果更好。

4.2 剪枝 vs. 合并

为了验证的剪枝操作,将剪枝操作替换为类似于 ToMeSD 的平均合并策略。如图 5a 所示,剪枝操作始终能够获得更低的 FID 得分。

4.3 不同图块大小的影响

如图 5b 所示,尽管较大的图块大小仅能带来微小的加速提升,但它们会导致 FID 值的显著增加。

d7446b8e7e0acec2711fb9834bf2a0a3.png

4.4 使用较少采样时间步的性能评估

SiTo 在不同的时间步数下,始终在图像质量和加速效果上超过 ToMeSD,这表明 SiTo 与 DDIM 等扩散加速方法是正交的。

90b589dc157e80e2a81c3cb5f8f213c7.png

4.5 SiTo 在各模块中的应用

SiTo 可以应用于所有模块,包括自注意力(Self-Attention,SA)、交叉注意力(Cross-Attention,CA)和前馈网络(Feed-Forward Network,FFN)。下表的结果显示,将 SiTo 应用于 CA 和前馈网络 FFN 仅带来了很小的加速收益,同时影响了图像生成质量。

db99807a3f632a9eb80b2ef674b3c9ef.png

此外,尽管 SiTo 和 ToMeSD 可以应用于更深的 UNet 块,下图显示,应用这些方法会导致生成质量的下降。

f74745f839d7d6d9226797f834b11e61.png

bc2187a7deb737ee669eead40c389eaf.png

总结

SiTo,一种用于高效扩散模型的令牌剪枝方法,旨在通过基于相似性的选择来减少剪枝误差。SiTo 不需要训练,硬件友好,不仅能显著降低内存和计算成本,还能提高生成质量。

它能够无缝地集成到现有的工作流程中,具有很好的跨模型和数据集的适应性,同时揭示了预训练扩散模型中的冗余,为更高效的模型设计提供了新的思路。

更多阅读

c386019c695b26da3e62a19b03301492.png

644e4a0191381920d0a7b2c0689e88f3.png

54813db64e4d2d44c4ed9af916ae8b3c.png

a89d7aef6cca1c9de34def3e9e57c517.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

062d4d354cb918e4ce1496e64f66ce0e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

c418f4c546af5ee7ce40b99cecce5ace.jpeg

### AAAI 2025会议低质量图像处理研究提交指南和主题 对于希望向AAAI 2025会议提交有关低质量图像处理的研究,参与者应当遵循严格的提交准则。这些指导方针旨在确保所提交的内容具有高质量并符合学术标准。 #### 提交截止日期 重要的是要注意工作坊及教程提案接受通知的时间是在2021年12月21日[^1];然而,针对具体论文提交的重要时间节点会在官方发布的征稿通知中给出,请务必关注最新的时间安排以获取最准确的信息。 #### 主题范围 低质量图像处理是一个广泛而重要的领域,在此背景下可以探讨的主题包括但不限于: - 图像去噪技术的发展及其应用效果评估 - 基于深度学习的方法来提升模糊照片清晰度的技术进展 - 面向特定场景(如医疗影像、遥感数据)下的低质图片修复算法设计 - 跨模态迁移学习用于改善视觉特征提取性能的研究成果分享 - 新兴硬件加速平台对高效能实时处理方案的支持情况分析 为了使文章更贴近实际需求和社会热点问题,建议作者们紧密联系当前社会背景和技术发展趋势来进行选题规划。 #### 准备材料 当准备投稿文件时,应按照大会规定格式撰写全文,并附上必要的补充资料,比如实验代码、测试集链接等辅助说明文档。此外还需填写版权转让声明表单以及提供同行评审所需的匿名版本稿件。 ```python # 示例:如何打包Python项目以便上传作为附件 import shutil shutil.make_archive('submission_materials', 'zip', './project_folder') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值