CVPR2024|Diffusion模型轻量化与计算效率优化

最新推荐文章于 2025-04-14 10:41:16 发布

菜鸟炼丹师ll

最新推荐文章于 2025-04-14 10:41:16 发布

阅读量4.8k

点赞数 38

文章标签：论文笔记深度学习 AIGC

本文链接：https://blog.csdn.net/jiale66/article/details/140637255

版权

前言

做算法应该都有顶会梦吧，发不了顶会只能刷一刷顶会了哈哈，向顶会大佬学习
扩散模型的训练和推理都需要巨大的计算成本（显卡不足做DDPM的下游任务实在是太难受了），所以本文整理汇总了部分CVPR2024中关于扩散模型的轻量化与计算效率优化 的相关论文。

文章目录

前言
1、Diffusion Models Without Attention
2、Fixed Point Diffusion Models
3、Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner
4、Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models
5、Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture
6、DeepCache: Accelerating Diffusion Models for Free
7、Accelerating Diffusion Sampling with Optimized Time Steps
总结

1、Diffusion Models Without Attention

Author：Jing Nathan Yan, Jiatao Gu, Alexander M. Rush
paper：https://arxiv.org/pdf/2311.18257

虽然去噪概率扩散模型（DDPMs）在图像生成方面取得了显著的进展，但在高分辨率应用中面临巨大的计算挑战，特别是依赖于自注意力机制导致计算复杂度呈二次方增长（训练过DDPM的朋友应该都对显存有着巨大渴望吧）。目前大部分解决办法都是通过加快Unet和Transformer架构中的进程，但是这样会牺牲模型的生成能力。

为了解决此问题，本文提出了扩散状态空间模型（DIFFUSSM），这是一种无需注意力机制的扩散架构，使用门控状态空间模型（SSM）作为扩散过程中的骨干网络。DIFFUSSM通过避免全局压缩来有效处理更高分辨率的图像，从而在整个扩散过程中保留详细的图像表示。

DIFFUSSM利用了长范围SSM核心和沙漏式前馈网络的交替层，不使用U-Nets或Transformers中的patchification或长范围块的缩放。采用了门控双向SSM作为核心组件，并通过hourglass架构提高效率。

论文在ImageNet和LSUN数据集上进行了评估，结果表明DIFFUSSM在FID和Inception Score指标上与现有带注意力模块的扩散模型相当或更优，同时显著减少了总的FLOP使用。