Diffusion Models in Vision: A Survey


去噪扩散模型是计算机视觉领域最近出现的一个新兴主题,在生成建模领域展示了显着的成果。扩散模型是一种基于两个阶段的深度生成模型,即前向扩散阶段和反向扩散阶段。在前向扩散阶段,通过添加高斯噪声在几个步骤中逐渐扰动输入数据。在反向阶段,模型的任务是通过学习逐步反向扩散过程来恢复原始输入数据。扩散模型因其生成样本的质量和多样性而受到广泛赞赏,尽管其计算负担已知,即由于采样过程中涉及大量步骤而导致速度较低。此篇综述对视觉中应用去噪扩散模型的文章进行了全面的回顾,包括该领域的理论和实践贡献。首先,论文确定并提出了 三种通用扩散建模框架,它们基于去噪扩散概率模型、噪声条件评分网络和随机微分方程。然后论文进一步讨论扩散模型 和其他深度生成模型之间的关系,包括变分自动编码器、生成对抗网络、基于能量的模型、自回归模型和归一化流。论文接着介绍了计算机视觉中应用的扩散模型的 多视角分类。最后,我们说明了扩散模型当前的局限性,并展望了未来研究的一些有趣方向。

1. Introduction

迄今为止,扩散模型已应用于各种生成建模任务,例如图像生成、图像超分辨率、图像修复、图像编辑、图像到图像翻译等。此外,通过扩散模型学习的潜在表示也被发现在判别任务中很有用,例如图像分割、分类和异常检测。扩散模型子类别至少有三个。第一个子类包括去噪扩散概率模型(DDPM),其灵感来自非平衡热力学理论。 DDPM 是使用潜在变量来估计概率分布的潜在变量模型。从这个角度来看,DDPM可以被视为一种特殊的变分自动编码器(VAE),其中前向扩散阶段对应于VAE内部的编码过程,而反向扩散阶段对应于解码过程。第二个子类以**噪声条件评分网络(NCSN)为代表,它基于通过评分匹配训练共享神经网络来估计扰动数据的评分函数(定义为对数密度的梯度)不同噪声水平下的分布。随机微分方程 (SDE)**代表了扩散模型的另一种方法,形成了扩散模型的第三个子类。通过正向和反向 SDE 进行扩散建模可以产生高效的生成策略以及强有力的理论结果 。后一种表述(基于 SDE)可以被视为对 DDPM 和 NCSN 的概括。论文确定了几种定义性的设计选择,并将它们合成为与上面介绍的三个子类别相对应的三个通用扩散建模框架。为了将通用扩散建模框架置于上下文中,论文进一步讨论扩散模型与其他深层生成模型之间的关系。更具体地说,论文描述了与变分自动编码器(VAE)、生成对抗网络(GAN)、基于能量的模型(EBM)、自回归模型和标准化流量。然后,论文引入了计算机视觉中应用的扩散模型的多视角分类,根据底层框架、目标任务或去噪条件等多个标准对现有模型进行分类。最后,论文说明了扩散模型当前的局限性,并展望了未来研究的一些有趣方向。例如,最有问题的限制之一可能是推理过程中时间效率低下,这是由大量评估步骤引起的,例如生成样本需要的数千步 。当然,在不影响生成样本质量的情况下克服这一限制是未来研究的重要方向。

2. 通用框架

在这里插入图片描述
2.1-2.3:DDPMs, NCSNs, and SDES三种框架的基础知识
2.4 与其他生成模型的关系
从基于可能性的方法开始,以生成对抗网络结束。扩散模型与 VAE 有更多共同点 。例如,在这两种情况下,数据都被映射到潜在空间,并且生成过程学习将潜在表示转换为数据。此外,在这两种情况下,目标函数都可以作为数据似然的下限导出。然而,这两种方法之间存在本质区别,论文将提及其中的一些区别。 VAE 的潜在表示包含有关原始图像的压缩信息,而扩散模型在前向过程的最后一步后完全破坏了数据。扩散模型的潜在表示与原始数据具有相同的维度,而 VAE 在维度减小时效果更好。最终,到 VAE 潜在空间的映射是可训练的,这对于扩散模型的前向过程来说是不正确的,因为如前所述,潜在空间是通过向原始图像逐渐添加高斯噪声来获得的。上述相似点和不同点可能是这两种方法未来发展的关键。例如,已经存在一些通过将扩散模型应用于 VAE 的潜在空间来构建更有效的扩散模型的工作。自回归模型将图像表示为像素序列。他们的生成过程通过以先前生成的像素为条件逐像素生成图像来生成新样本。这种方法意味着单向偏差,清楚地代表了此类生成模型的局限性。埃塞尔等人将扩散模型和自回归模型视为互补并解决了上述问题。他们的方法学习通过马尔可夫链反转多项式扩散过程,其中每个转换都作为自回归模型实现。提供给自回归模型的全局信息由马尔可夫链的前一步给出。归一化流是一类将简单高斯分布转换为复杂数据分布的生成模型。该变换是通过一组可逆函数完成的,这些函数具有易于计算的雅可比行列式。这些条件在实践中转化为架构限制。此类模型的一个重要特征是可能性易于处理。因此,训练的目标是负对数似然。与扩散模型相比,两种模型的共同点是数据分布到高斯噪声的映射。然而,这两种方法之间的相似之处到此为止,因为归一化流通过学习可逆且可微的函数以确定性方式执行映射。与扩散模型相比,这些属性意味着对网络架构的额外约束以及可学习的前向过程。连接这两种生成算法的方法是 DiffFlow。DiffFlow 扩展了扩散模型和归一化流,使得反向和正向过程都是可训练的和随机的。基于能量的模型(EBM)专注于提供密度函数(称为能量函数)的非标准化版本的估计。由于这个属性,并且与之前基于似然的方法相比,这种类型的模型可以用任何回归模型来表示。然而,由于这种灵活性,EBM 的训练很困难。实践中使用的一种流行的训练策略是分数匹配。关于采样,除其他策略外,还有基于得分函数的马尔可夫链蒙特卡罗(MCMC)方法。因此,扩散模型第2.2小节的公式可以被认为是基于能量的框架的特殊情况,正是训练和采样仅需要得分函数时的情况。在扩散模型最近兴起之前,GAN 就生成样本的质量而言被许多人认为是最先进的生成模型。 GAN 也因其对抗性目标而难以训练 ,并且经常遭受模型崩溃。相比之下,扩散模型具有稳定的训练过程,并提供更多的多样性,因为它们是基于可能性的。尽管有这些优点,但与 GAN 相比,扩散模型仍然效率低下,在推理过程中需要进行多次网络评估。 GAN 和扩散模型之间比较的一个关键方面是它们的潜在空间。虽然 GAN 具有低维潜在空间,但扩散模型保留了图像的原始大小。此外,扩散模型的潜在空间通常被建模为随机高斯分布,类似于 VAE。在语义属性方面,人们发现 GAN 的潜在空间包含与视觉属性相关的子空间。由于这个属性,可以通过潜在空间的变化来操纵属性。相反,当扩散模型需要这种变换时,首选过程是引导技术,它不利用潜在空间的任何语义属性。然而,宋等人证明扩散模型的潜在空间具有明确定义的结构,说明该空间中的插值导致图像空间中的插值。综上所述,从语义的角度来看,扩散模型的潜在空间的探索比 GAN 的情况要少得多,但这可能是社区未来遵循的研究方向之一。

3 扩散模型的分类

论文考虑不同的分类标准,将扩散模型分类为多视角分类法。
分类的最重要标准是由

  • 模型所应用的任务
  • 输入信号
  • 定制扩散模型的底层框架
  • 数据集
    论文根据上面列举的标准对扩散模型进行分类,如表 1 所示。在本节的其余部分中,论文提出了对扩散模型的一些贡献,选择目标任务作为区分方法的主要标准。论文选择这种分类标准是因为它对于扩散模型的研究来说相当平衡且具有代表性,有助于从事特定任务的读者快速掌握相关作品。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    其他任务:
    有一些开创性的工作将扩散模型应用于新任务,而这些任务很少通过扩散模型进行探索。如:3D 点云生成、自动编码和无监督表示学习、一种应用基于分数的模型进行分类的策略、使用扩散模型来解决图像配准任务、应用扩散模型进行反事实解释、用于反事实图像生成、使用扩散模型作为对抗性攻击的防御机制、基于扩散模型的图像生成器、基于扩散模型的语义图像合成框架、恢复受各种天气条件(例如雪、雨)负面影响的图像的任务、使用预训练扩散模型,对各种任务进行评估:超分辨率、去模糊、着色和修复。

结束语和未来方向

论文回顾了扩散模型并将其应用于各种计算机视觉任务方面取得的进展。论文基于 DDPM、NCSN 和 SDE 确定了扩散模型的三种主要公式。每个公式在图像生成方面都取得了显着的效果,超越了 GAN,同时增加了生成样本的多样性。扩散模型在研究仍处于早期阶段时就取得了突出的成果。尽管论文观察到主要焦点是条件和无条件图像生成,但仍有许多任务需要探索并需要实现进一步的改进。

局限性。

扩散模型最显着的缺点:在推理时执行多个步骤才能生成一个样本。尽管在这个方向上进行了大量研究,但 GAN 生成图像的速度仍然更快。扩散模型的其他问题可以与使用 CLIP 嵌入进行文本到图像生成的常用策略相关联。因此,当这种嵌入用于调节去噪过程时,模型会继承此类问题。

未来发展方向。

为了降低不确定性水平,扩散模型通常避免在采样过程中采取大步长。事实上,采取小步骤可以确保每一步生成的数据样本都能由学习到的高斯分布来解释。当应用梯度下降来优化神经网络时,会观察到类似的行为。事实上,在梯度的负方向上迈出一大步,即使用非常大的学习率,可能会导致模型更新到具有高不确定性的区域,无法控制损失值。在未来的工作中,将从高效优化器借用的更新规则转移到扩散模型可能会导致更有效的采样(生成)过程。除了当前研究更有效的扩散模型的趋势之外,未来的工作还可以研究应用于其他计算机视觉任务的扩散模型,例如图像去雾、视频异常检测或视觉问答。即使论文发现了一些研究医学图像中异常检测的作品,这项任务也可以在其他领域进行探索,例如视频监控或工业检查。一个有趣的研究方向是评估判别任务中扩散模型学习到的表示空间的质量和效用。这可以至少以两种不同的方式进行。以直接的方式,通过在去噪模型提供的潜在表示之上学习一些判别模型,来解决某些分类或回归任务。以间接的方式,通过使用扩散模型生成的真实样本来增强训练集。后一个方向可能更适合对象检测等任务,其中修复扩散模型可以很好地混合图像中的新对象。未来的另一个工作方向是采用条件扩散模型来预测视频的后续。生成的视频可以进一步作为强化学习模型的输入。与之前的现有技术相比,最​​近的扩散模型显示了令人印象深刻的文本到视频合成能力。然而,论文认为这个方向在未来的工作中需要更多的关注,因为生成的视频相当短。因此,对对象之间的长期时间关系和交互进行建模仍然是一个开放的挑战。未来,扩散模型的研究还可以扩展到学习同时解决多个任务的多用途模型。创建扩散模型以生成多种类型的输出,同时以各种类型的数据为条件,例如文本、类别标签或图像,可能会让我们更进一步了解开发通用人工智能 (AGI) 的必要步骤

  • 30
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值