改进扩散模型diffusion

1、Discriminative Class Tokens for Text-to-Image Diffusion Models

文本到图像扩散模型,使得生成多样且高质量的图像成为可能。然而,这些图像往往在描绘细节方面不够精细,并且容易出现由于输入文本的歧义导致的错误。缓解这些问题的一种方法是在带类标签的数据集上训练扩散模型。这种方法有两个缺点:(i)监督数据集通常与大规模抓取的文本-图像数据集相比较小,影响生成图像的质量和多样性,或者(ii)输入是一个硬编码标签,而不是自由形式的文本,限制了对生成图像的控制。

这项工作提出一种非侵入式的微调技术,充分发挥自由形式文本的表达能力,同时通过来自预训练分类器的判别信号实现高准确性。这是通过迭代修改文本到图像扩散模型的一个额外输入token的嵌入向量来完成的,将生成的图像朝着给定的目标类别进行导引。

与先前的微调方法相比,方法速度较快,且不需一组类内图像或重新训练抗噪声分类器。实证结果表明生成的图像比标准扩散模型的图像更准确且质量更高,可以在资源有限的情况下用于增强训练数据,并揭示了用于训练指导分类器的数据的信息。已开源在:https://github.com/idansc/discriminative_class_tokens

2、Score-Based Diffusion Models as Principled Priors for Inverse Imaging

先验Priors在从噪声和/或不完整测量中重建图像中起着至关重要的作用。先验的选择决定了恢复图像的质量和不确定性。提出将基于分数的扩散模型转化为有原则的图像先验(“基于分数的先验”),用于分析给定测量的图像后验。

以前,概率先验局限于手工制作的正则化器和简单的概率分布。这项工作中,经验证明了基于分数的扩散模型的理论上证明的概率函数。展示了如何使用这个概率函数进行变分推断从而从得到的后验中进行采样。包括去噪、去模糊和干涉成像的实验,表明基于分数的先验能够通过一个复杂的基于数据的图像先验进行有原则的推断。开源在:https://github.com/berthyf96/score_prior

3、Masked Diffusion Transformer is a Strong Image Synthesizer

尽管在图像生成方面取得成功,但观察到扩散概率模型(DPM)在学习图像中对象部分之间的关系时常常缺乏上下文推理能力,导致学习过程较慢。为解决这个问题,提出一个称为Masked Diffusion Transformer(MDT)的方法,通过引入蒙版潜在建模方案,明确增强DPM在图像中对象语义部分之间的上下文关系学习能力。

在训练过程中,MDT在潜在空间中操作以遮盖某些tokens。然后,设计了一个非对称的Masked Diffusion Transformer,用于根据未遮盖的tokens预测遮盖的tokens,同时保持扩散生成过程。MDT可以从不完整的上下文输入中重构图像的全部信息,从而使其能够学习图像token之间的关联关系。

实验结果表明,MDT在图像合成性能方面表

扩散模型Diffusion Model)是一种生成式模型,它通过逐步向数据添加噪声然后学习从噪声中恢复原始数据的过程来进行训练。这一过程受到了非平衡热力学理论中的去噪扩散概率模型启发,在深度学习领域取得了显著的应用进展。 ### 扩散模型的核心思想 扩散模型的基本理念来源于对物理系统如何随时间演化的一种数学模拟。其核心可以分为两个阶段: 1. **前向扩散步骤**:将一组初始数据点逐渐转化为无结构的随机噪声; 2. **反向生成步骤**:从完全随机的数据开始,尝试重建出有意义的数据样本。 这两个过程分别对应着模型的学习目标以及实际应用时的操作模式。 #### 前向扩散过程 该部分包括一系列离散的时间步T,在每一步t=1,...,T上都会按照一定规则给输入x_0加上少量高斯白噪音ε_t,直到最终得到接近纯噪音的状态x_T。这个转换是由预先设定好的方差调度函数β(t)控制完成。 #### 反向生成过程 为了能够逆向前向过程中产生的变化,网络需要学会预测并移除之前加入到图像里的所有干扰成分。具体来说就是对于任一时刻t>0下的隐变量x̂_{t−1},估计条件分布p_theta(x̂_{t| x̂_t})的形式,并以此为基础采样获得下一时段的结果。 ### 模型的特点及优势 - **高质量样本合成能力**:由于采用了迭代式的修正机制而非直接映射的方式,因此即便是在处理复杂多变的任务场景里也往往能保证较高的输出质量。 - **灵活性较高**:相比于VAE、GAN等传统技术而言,它不仅支持连续值而且同样适用于离散情况;并且因为不存在对抗性的设计所以稳定性更好更容易收敛。 - **具备良好的理论基础支撑**:基于严格的统计框架建立起来的概率流公式为理解和改进现有架构提供了一个坚实的依据平台。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值