1、Discriminative Class Tokens for Text-to-Image Diffusion Models
文本到图像扩散模型,使得生成多样且高质量的图像成为可能。然而,这些图像往往在描绘细节方面不够精细,并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点:(i)监督数据集通常与大规模抓取的文本-图像数据集相比较小,影响生成图像的质量和多样性,或者(ii)输入是一个硬编码标签,而不是自由形式的文本,限制了对生成图像的控制。
这项工作提出一种非侵入式的微调技术,充分发挥自由形式文本的表达能力,同时通过来自预训练分类器的判别信号实现高准确性。这是通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量来完成的,将生成的图像朝着给定的目标类别进行导引。
与先前的微调方法相比,方法速度较快,且不需一组类内图像或重新训练抗噪声分类器。实证结果表明生成的图像比标准扩散模型的图像更准确且质量更高,可以在资源有限的情况下用于增强训练数据,并揭示了用于训练指导分类器的数据的信息。已开源在:https://github.com/idansc/discriminative_class_tokens
2、Score-Based Diffusion Models as Principled Priors for Inverse Imaging
先验Priors在从噪声和/或不完整测量中重建图像中起着至关重要的作用。先验的选择决定了恢复图像的质量和不确定性。提出将基于分数的扩散模型转化为有原则的图像先验(“基于分数的先验”),用于分析给定测量的图像后验。
以前,概率先验局限于手工制作的正则化器和简单的概率分布。这项工作中,经验证明了基于分数的扩散模型的理论上证明的概率函数。展示了如何使用这个概率函数进行变分推断从而从得到的后验中进行采样。包括去噪、去模糊和干涉成像的实验,表明基于分数的先验能够通过一个复杂的基于数据的图像先验进行有原则的推断。开源在:https://github.com/berthyf96/score_prior
3、Masked Diffusion Transformer is a Strong Image Synthesizer
尽管在图像生成方面取得成功,但观察到扩散概率模型(DPM)在学习图像中对象部分之间的关系时常常缺乏上下文推理能力,导致学习过程较慢。为解决这个问题,提出一个称为Masked Diffusion Transformer(MDT)的方法,通过引入蒙版潜在建模方案,明确增强DPM在图像中对象语义部分之间的上下文关系学习能力。
在训练过程中,MDT在潜在空间中操作以遮盖某些tokens。然后,设计了一个非对称的Masked Diffusion Transformer,用于根据未遮盖的tokens预测遮盖的tokens,同时保持扩散生成过程。MDT可以从不完整的上下文输入中重构图像的全部信息,从而使其能够学习图像token之间的关联关系。
实验结果表明,MDT在图像合成性能方面表