读：《An Overview of Diffusion Models Applications……》导览

最新推荐文章于 2024-08-19 18:33:44 发布

xwhking

最新推荐文章于 2024-08-19 18:33:44 发布

阅读量866

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/Go_ahead_forever/article/details/139337265

版权

读：《An Overview of Diffusion Models: Applications,Guided Generation, Statistical Rates and Optimization》简单说明

这篇文章也是关于 Diffusion 模型的综述，但是这一篇讲的显然不如 2022出的这篇综述 [2209.00796] Diffusion Models: A Comprehensive Survey of Methods and Applications (arxiv.org)

但是这篇在讲应用的时候带了例子可能还是不错的。

文章我的一个有理解部分分享：

2.2 条件扩散模型

这里我主要理解：就是给扩散的数据进行一个标签标记，但是数据在前向后向的过程是要被打乱的，但是条件 y 是不变的

在这里插入图片描述

3.1 视觉和音频生成

比较白话的说明了 Diffusion Model 的一些在图像、音频方面的应用,这里就放3.1的一个翻译了，感觉第三个部分这里讲的还行吧。

扩散模型在图像和音频生成任务中实现了最先进的性能 [7–22]，并且是图像和音频合成系统（例如 DALL-E [66]、稳定扩散 [101] 和 Diffwave [11]）的基本构建块之一。扩散模型的性能以高保真样本生成为评估标准，并允许使用多种指导来控制生成。指导下生成的最简单示例是生成某些类别的图像，例如猫或狗。此类分类信息被视为条件信号并输入到条件扩散模型中。更详细地说，我们使用由样本对 (xi , yi) 组成的标记数据集训练条件扩散模型，其中 yi 是图像 xi 的标签。训练是使用数据集估计条件得分函数，对 x 和 y 之间的对应关系进行建模。通过这种方式，条件扩散模型正在学习条件分布 P(x = 图像 | y = 给定标签) 并允许从分布中进行采样。 6在文本到图像合成系统中，条件信息是输入文本提示，可以是包含对象或更抽象的要求（例如美学质量）的句子。为了生成与提示一致的图像，条件扩散模型会使用大量带注释的数据集进行训练，该数据集包含表示为 (xi, yi) 的图像和文本摘要对。文本 yi 将被转换为词嵌入并作为条件扩散模型的输入。与某些类别的图像生成类似，用于文本到图像合成的条件扩散模型学习条件分布 P(x = 图像 | y = 文本提示) 并允许从中采样。在更复杂的合成系统中，会实施一些微调步骤，以进一步实现抽象提示条件并提高生成图像的质量。例如，[78] 将离散化的后向过程 (2) 重新表述为有限时域马尔可夫决策过程 (MDP)。状态空间表示图像，条件得分函数被视为策略，奖励函数定义为测量图像与其所需文本提示的对齐程度。因此，生成与提示对齐的图像相当于通过寻找最佳策略来优化奖励。[78] 提出了一种基于策略梯度的方法来微调预训练的扩散模型。在图 2 中，我们展示了使用 [78] 中的方法从左到右对条件扩散模型进行微调的逐步改进。条件扩散模型在图像编辑和恢复 [102–109] 以及音频增强 [110–113] 中也是一个强大的工具；另请参阅综述 [22, 56] 及其中的参考文献。为了展示这个想法，我们以图像修复任务为例。修复的目标是预测图像中缺失的像素。我们将图像的已知区域表示为 y，将原始完整图像表示为 x。然后，修复归结为从条件分布 P(x = 完整图像 | y = 图像的已知区域) 中采样 x。在所有这些应用中，条件扩散模型在建模条件分布方面表现出极高的表现力和有效性 [10, 107]。