ICCV 2023 | 从14篇论文看如何改进扩散模型diffusion ？

最新推荐文章于 2024-10-11 07:28:19 发布

机器学习与AI生成创作

最新推荐文章于 2024-10-11 07:28:19 发布

阅读量1.8k

点赞数 21

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/135516215

版权

1、Discriminative Class Tokens for Text-to-Image Diffusion Models

文本到图像扩散模型，使得生成多样且高质量的图像成为可能。然而，这些图像往往在描绘细节方面不够精细，并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点：（i）监督数据集通常与大规模抓取的文本-图像数据集相比较小，影响生成图像的质量和多样性，或者（ii）输入是一个硬编码标签，而不是自由形式的文本，限制了对生成图像的控制。

这项工作提出一种非侵入式的微调技术，充分发挥自由形式文本的表达能力，同时通过来自预训练分类器的判别信号实现高准确性。这是通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量来完成的，将生成的图像朝着给定的目标类别进行导引。

与先前的微调方法相比，方法速度较快，且不需一组类内图像或重新训练抗噪声分类器。实证结果表明生成的图像比标准扩散模型的图像更准确且质量更高，可以在资源有限的情况下用于增强训练数据，并揭示了用于训练指导分类器的数据的信息。已开源在：https://github.com/idansc/discriminative_class_tokens

2、Score-Based Diffusion Models as Principled Priors for Inverse Imaging

先验Priors在从噪声和/或不完整测量中重建图像中起着至关重要的作用。先验的选择决定了恢复图像的质量和不确定性。提出将基于分数的扩散模型转化为有原则的图像先验（“基于分数的先验”），用于分析给定测量的图像后验。

以前，概率先验局限于手工制作的正则化器和简单的概率分布。这项工作中，经验证明了基于分数的扩散模型的理论上证明的概率函数。展示了如何使用这个概率函数进行变分推断从而从得到的后验中进行采样。包括去噪、去模糊和干涉成像的实验，表明基于分数的先验能够通过一个复杂的基于数据的图像先验进行有原则的推断。开源在：https://github.com/berthyf96/score_prior

3、Masked Diffusion Transformer is a Strong Image Synthesizer

尽管在图像生成方面取得成功，但观察到扩散概率模型（DPM）在学习图像中对象部分之间的关系时常常缺乏上下文推理能力，导致学习过程较慢。为解决这个问题，提出一个称为Masked Diffusion Transformer（MDT）的方法，通过引入蒙版潜在建模方案，明确增强DPM在图像中对象语义部分之间的上下文关系学习能力。

在训练过程中，MDT在潜在空间中操作以遮盖某些tokens。然后，设计了一个非对称的Masked Diffusion Transformer，用于根据未遮盖的tokens预测遮盖的tokens，同时保持扩散生成过程。MDT可以从不完整的上下文输入中重构图像的全部信息，从而使其能够学习图像token之间的关联关系。

实验结果表明，MDT在图像合成性能方面表现出优越性能，例如在ImageNet数据集上的新的SOTA FID分数，并且比之前的SOTA DiT具有约3倍的学习速度。开源在：https://github.com/sail-sg/MDT

4、SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

扩散模型在文本到图像生成方面取得了显著的成功，能够通过文本提示或其他模态创建高质量的图像。然而，现有的定制这些模型的方法在处理多个个性化主体和过拟合的风险方面存在局限。此外，它们的大量参数对于模型的存储来说是低效的。

本文提出一种解决现有文本到图像扩散模型个性化问题的新方法。方法涉及微调权重矩阵的奇异值，以得到一个紧凑而高效的参数空间，从而减少过度拟合和语言漂移的风险。还提出一种Cut-Mix-Unmix数据增强技术，以增强多主体图像生成的质量，并提出了一个简单的基于文本的图像编辑框架。

SVDiff方法与现有方法相比具有显著较小的模型大小（与vanilla DreamBooth相比，参数减少了约2,200倍），使其更适合实际应用。

5、Efficient Diffusion Training via Min-SNR Weighting Strategy

去噪扩散模型是图像生成的主流方法，然而，训练这些模型往往收敛速度较慢。本文发现这种收敛速度慢的原因部分是由于时间步之间存在冲突的优化方向。为解决这个问题，将扩散训练视为一种多任务学习问题，并引入了一种简单而有效的方法，称为Min-SNR-γ。这种方法基于固定的信噪比调整时间步的损失权重，有效地平衡了时间步之间的冲突。

结果表明，在收敛速度方面有显著的改进，比之前的加权策略快3.4倍。它也更有效，使用比之前最先进方法更小的架构，在ImageNet 256×256基准测试中实现了2.06的新FID分数。开源在：https://github.com/TiankaiHang/Min-SNR-Diffusion-Training

6、Improving Sample Quality of Diffusion Models Using Self-Attention Guidance

去噪扩散模型（DDMs）因其出色的生成质量和多样性而备受关注。这一成功主要归功于使用类别或文本条件的扩散引导方法，例如分类器和无分类器引导。本文提出一个更全面的视角，超越传统的引导方法。

引入了新的无条件和无训练策略，以增强生成图像的质量。作为一种简单的解决方案，模糊引导提高了中间样本针对其细节和结构的信息的适应性，使扩散模型能够生成更高质量的样本。在此基础上，使用自注意力引导（SAG）使用扩散模型的中间自注意力图来增强其稳定性和效果。具体来说，SAG仅对扩散模型在每次迭代中关注的区域进行对抗性模糊，并相应地引导它们。

实验结果表明，SAG改善各种扩散模型性能，包括ADM、IDDPM、Stable Diffusion和DiT。此外，将SAG与传统引导方法相结合可以进一步提高性能。开源在：https://github.com/KU-CVLAB/Self-Attention-Guidance/

7、DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability

近来，大规模扩散模型在图像生成方面取得了显著结果。另一方面，大规模交叉模态预训练模型（例如CLIP、ALIGN和FILIP）通过学习将视觉和语言嵌入对齐，能够胜任各种下游任务。本文探索联合建模生成和判别的可能性。

提出DiffDis，将跨模态生成和判别预训练统一到扩散过程的框架中。DiffDis首先将图像-文本判别问题形式化为基于文本嵌入的生成扩散过程，该嵌入来自于以图像为条件的文本编码器。然后，提出一种新的双流网络架构，将噪声文本嵌入与来自不同尺度的潜在图像的知识融合在一起，用于图像-文本判别学习。此外，生成和判别任务可以在多模态模型中高效共享图像分支网络结构。由于基于扩散的统一训练，DiffDis在一个架构中实现了更好的生成能力和跨模态语义对齐。

实验结果表明，DiffDis在图像生成和图像-文本判别任务上优于单任务模型，例如在12个数据集上的零样本分类平均准确率提高了1.65%，零样本图像生成的FID提高了2.42。

8、AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration

扩散模型生成一张图像通常需要大量的时间步骤（推理步骤）。为加速这个繁琐的过程，统一地减少步骤被认为是扩散模型的不争之论的原则。然而，这样的统一假设在实践中并不是最优解；也就是说，对于不同的模型，可以找到不同的最优时间步长。因此，提出在统一的框架中搜索最优的时间步长序列和压缩模型架构，以实现对扩散模型的有效图像生成而无需任何进一步的训练。

具体而言，首先设计一个统一搜索空间，其中包含所有可能的时间步长和各种架构。然后，引入了一个两阶段的进化算法来在设计的搜索空间中寻找最优解。为进一步加速搜索过程，用生成和真实样本之间的FID分数来估计采样样例的性能。结果表明，所提出方法是(i)无需训练，可以在没有任何训练过程的情况下获得最优的时间步长和模型架构；(ii)与大多数先进的扩散采样器正交，并且可以集成以获得更好的样本质量；(iii)具有广义性，通过为不同的扩散模型应用相同的指导比例，可以直接应用搜索的时间步长和架构。

实验结果表明，方法仅使用少量时间步长就实现出色的性能，例如在ImageNet 64×64上使用仅四个步骤，FID得分达到了17.86，而使用DDIM则为138.66。

9、DPM-OT: A New Diffusion Probabilistic Model Based on Optimal Transport

从扩散概率模型（DPMs）中进行采样可以看作是一个分段分布转换，通常需要反扩散轨迹的几百或几千步才能得到高质量的图像。最近在设计DPMs的快速采样器方面取得的进展通过知识蒸馏或调整方差计划或去噪方程的方式在采样速度和样本质量之间取得了折衷。然而，这在两方面都不能达到最优，并且在短时间步中经常出现模式混合的问题。

为解决这个问题，将反扩散视为不同阶段之间潜在变量之间的最优输运（OT）问题，并提出了DPM-OT，这是一个用于快速DPMs的统一学习框架。通过计算数据潜变量和白噪声之间的半离散最优输运图，获得了从先验分布到数据分布的高速路径，同时显著减轻了模式混合问题。此外，给出了所提方法的误差界，从理论上保证了算法的稳定性。

大量实验证实了DPM-OT在速度和质量（FID和模式混合）方面的有效性和优势，从而为生成建模提供了一种高效的解决方案。开源在：https://github.com/cognaclee/DPM-OT

10、Q-Diffusion: Quantizing Diffusion Models

扩散模型通过用深度神经网络进行迭代噪声估计在图像生成方面取得了巨大的成功。然而，噪声估计模型的推理速度慢、内存消耗大和计算强度高，阻碍了扩散模型的高效应用。尽管后训练量化（PTQ）被认为是其他任务的首选压缩方法，但它在扩散模型上无法直接使用。

提出一种专门针对扩散模型的独特多时间步骤流程和模型架构的PTQ方法，通过压缩噪声估计网络来加速生成过程。实验结果表明，提出方法能够将完全精度的无条件扩散模型压缩为4位，同时保持可比较的性能（FID变化最多为2.34，而传统PTQ为>100），且无需训练。方法还可以应用于文本引导的图像生成，在4位权重下以高生成质量运行stable diffusion。

11、A Complete Recipe for Diffusion Generative Models

基于得分的生成模型（Score-based Generative Models，SGMs）在各种任务上展示了出色的生成结果。然而，目前的SGMs前向扩散过程设计领域尚未充分发挥，并且通常依赖于物理启发式或简化假设。借鉴可扩展贝叶斯后验抽样器的发展见解，提出一个完整配方，用于制定SGMs的前向过程，确保收敛到所需的目标分布。

方法揭示了几个现有SGMs可以看作是所提出框架的特定表现形式。基于这种方法，引入相空间朗之万扩散（PSLD），它依赖于在增强的空间内的得分建模，其中包含类似于物理相空间的辅助变量。实证结果展示了PSLD相对于各种竞争方法在已建立的图像合成基准上表现出的优越的样本质量和速度-质量平衡改进。值得注意的是，PSLD在无条件CIFAR-10生成方面实现了与最先进的SGMs相当的样本质量（FID：2.10）。

最后，演示PSLD在条件合成中使用预训练得分网络的适用性，为未来进展提供了一种有吸引力的SGM骨干方法的替代选择。开源在：https://github.com/mandt-lab/PSLD

12、Scalable Diffusion Models with Transformers

基于Transformer架构探索一种新的扩散模型。训练以图像为基础的潜在扩散模型，用Transformer代替常用的U-Net骨干网络，该Transformer在潜在图块上操作。通过前向传递复杂度的可伸缩性来分析扩散Transformer（DiTs）。发现通过增加Transformer的深度/宽度或增加输入tokens的数量，具有更高Gflops的DiTs一贯具有较低的FID。

除了具有良好的可伸缩性属性外，最大的DiT-XL/2模型在类别条件图像网512×512和256×256基准测试上胜过了所有先前的扩散模型，在后者上达到了2.27的最新成果。

已开源在：https://github.com/facebookresearch/DiT

13、End-to-End Diffusion Latent Optimization Improves Classifier Guidance

分类器引导(Classifier guidance)，用图像分类器的梯度来引导扩散模型的生成和编辑，有潜力大幅扩展图像生成和编辑的创造性控制。然而，目前分类器引导要么需要训练新的噪声感知模型以获得准确的梯度，要么使用最终生成的一步去噪逼近，这会导致梯度不一致和次优的控制。本文强调这种逼近方法的不足，并提出了一种新的引导方法：扩散潜空间的直接优化（Direct Optimization of Diffusion Latents， DOODL），通过优化扩散潜空间相对于预训练分类器在真实生成像素上的梯度，使用可逆扩散过程实现了高效的内存反向传播，实现即插即过的引导。

展示更精确引导潜力的DOODL在计算和人类评估指标上优于一步分类器引导，在不同的引导形式上：使用CLIP引导改进DrawBench复杂提示的生成，使用精细的视觉分类器扩展扩散的词汇，使用CLIP视觉编码器实现基于图像的生成，并使用美学评分网络改善图像美学。

14、DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

扩散模型在生成高质量图像方面已被证明非常有效。然而将大规模预训练的扩散模型适应到新的领域仍是一个开放的挑战，这对于实际应用来说至关重要。

本文提出DiffFit，用于微调大规模预训练的扩散模型，快速适应新领域。DiffFit非常简单，仅微调特定层中的偏置项和新添加的缩放因子，但可以显著提升训练速度并减少模型存储成本。与完全微调相比，DiffFit实现了2倍的训练加速和仅需存储总模型参数的约0.12%。

提供了直观的理论分析，以证明缩放因子在快速适应上的有效性。在8个下游数据集上，DiffFit在与完全微调相比的性能上达到了卓越或有竞争力的表现，同时更加高效。展示了DiffFit可以通过极小的成本将预训练的低分辨率生成模型适应为高分辨率模型。在基于扩散的方法中，DiffFit在ImageNet 512×512基准测试上通过仅从公共预训练的ImageNet 256×256检查点微调25个epoch，获得了新的最新成果，同时训练效率比最接近的竞争者高30倍。

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

不是一杯奶茶喝不起，而是我T M直接用来跟进 AIGC+CV视觉前沿技术，它不香？！

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！