点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击 阅读原文 观看作者讲解回放!
作者简介
李森茂,南开大学博士生
概述
扩散模型的一个主要缺点是图像生成的推理时间慢。解决这个问题的最成功方法之一是蒸馏方法。然而,这些方法需要大量的计算资源。在本文中,我们采取了另一种方法来加速扩散模型。我们对UNet编码器进行了全面研究,并实证分析了编码器特征。这为我们提供了关于它们在推理过程中变化的见解。特别是,我们发现编码器特征变化很小,而解码器特征在不同时间步中表现出显著变化。这一见解激励我们在某些相邻时间步中省略编码器计算,并在多个时间步中将前一时间步的编码器特征作为输入重用到解码器。重要的是,这使我们能够并行执行解码器计算,进一步加速去噪过程。此外,我们引入了一种先验噪声注入方法来改善生成图像的纹理细节。除了标准的文本到图像任务,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。不使用任何知识蒸馏技术,我们的方法分别加速了Stable Diffusion(SD)和DeepFloyd-IF模型采样41%和24%,以及DiT模型采样34%,同时保持了高质量的生成性能。
论文地址:
https://arxiv.org/pdf/2312.09608
代码链接:
https://sen-mao.github.io/FasterDiffusion
Background
在2022年,仍然是生成对抗网络(GAN)占据主导地位的时代。使用生成对抗网络生成一张高清图像通常只需要毫秒级的时间。然而,当时的扩散模型生成图像往往需要几十秒时间。这使得基于扩散模型的许多任务必须在离线环境中进行,从而大大限制了扩散模型的应用范围。
虽然到目前为止,基于生成对抗网络生成图像的一些工作已经取得了一定的进展,但这些工作往往没有开源代码或者模型。然而,基于扩散模型的工作则大多会开源他们的代码和模型。正是因为这些基于扩散模型的项目公开了代码和模型,学者们才能进一步探索和挖掘这些技术,开展科研工作和落地应用任务。
例如,基于潜在空间进行生成的稳定扩散(Stable Diffusion),及基于图像空间进行生成的DeeperFloyd-IF模型等。这些开源项目为研究人员和开发者提供了宝贵