扩散模型：Diffusion models as plug-and-play priors作为即插即用先验的扩散模型

HheeFish

已于 2022-12-06 15:59:50 修改

阅读量4.1k

点赞数 5

分类专栏：深度学习文章标签：深度学习人工智能图像处理神经网络迁移学习

于 2022-12-06 12:27:43 首次发布

本文链接：https://blog.csdn.net/ssshyeong/article/details/128186575

版权

扩散模型：Diffusion models as plug-and-play priors作为即插即用先验的扩散模型

0.摘要
1.概述
2.方法
- 2.1.问题设置
- 2.2.将去噪扩散概率模型作为先验
3.实验：图像生成
- 3.1.MNIST的简单说明
- 3.2.使用现成组件条件生成脸部图像
4.实验：语义分割
附录B：实验细节和扩展
参考文献

论文下载
 开源代码

0.摘要

我们考虑在一个由先验p(x)和辅助可微约束c(x,y)组成的模型中推断高维数据的问题。在本文中，先验是一个独立训练的去噪扩散生成模型。辅助约束预计具有可微形式，但可以来自不同的来源。这种推断的可能性将扩散模型转化为即插即用模型，从而允许在适应模型的领域和任务（如条件生成或图像分割）方面的一系列潜在应用。扩散模型的结构允许我们通过在每个步骤中富含不同数量噪声的固定去噪网络迭代微分来执行近似推断。考虑到x的许多噪声版本，对其适应度的评估是一种新的搜索机制，可能会导致解决组合优化问题的新算法。

1.概述

深度生成模型，如去噪扩散概率模型[DDPMs;39,13]可以捕捉高维连续数据地图p(x)上非常复杂的分布细节[30,7,1,38,43,15]。DDPM的巨大有效深度，有时在生成过程中有成千上万的深度网络评估，这明显限制了它们在分层生成模型中作为现成模块的使用，其中模型可以混合，一个模型可以作为另一个条件模型的先验。在本文中，我们证明了在图像数据上训练的DDPM可以直接用作包含其他可微约束的系统的先验
在我们的主要问题设置中，我们假设我们在高维数据上有一个先验p(x)，我们希望在一个模型中执行推理，该模型包含这个先验和一个约束(x,y)以及给定的一些附加信息。也就是说，我们要找到后验分布p(x|y)∝p(x)c(x,y)的近似。在本文中， $p(x=x_0,h={x_T,…,x_1})$ 以在x_T，…，x₀独立训练的DDPM的形式提供(§2.2)，使DDPM成为“即插即用”先验。
尽管最近社区对DDPM的兴趣促进了训练算法和快速生成计划的进展[30,37,45]，但它们作为即插即用模块使用的可能性还没有被探索。此外，与即插即用模型的现有工作(从[29]开始)不同，我们提出的算法不需要对模型组件或推理网络进行传统的训练或微调。
即插即用先验的一个明显应用是条件图像生成(§3.1，§3.2)。例如，在MNIST数字图像上训练的去噪扩散模型可能定义p(x)，而约束c(x,y)可能是现有分类器下数字分类的概率。然而，通过改变x的语义，我们也可以将这种模型用于神经网络难以适应领域的推理任务，例如图像分割:c(x,y)约束分割x以匹配外观或弱标签(§4)。最后，我们描述了一种使用DDPM先验解决组合搜索问题的连续松弛的途径，方法是将y作为具有x中确定性编码的组合结构的潜在变量(§5)。

2.方法

2.1.问题设置

回想一下，我们想找到**后验分布p(x|y)∝p(x)c(x,y)**的近似，其中p(x)是一个固定的先验分布。固定y并引入近似变分后验q(x)，自由能量：
在这里插入图片描述
当q(x)最接近真实的后验、KL(q(x)||p(x|y))最小时自由能最小。当q(x)和用于拟合它的学习算法具有足够的表达能力来捕获真后验时，这种最小化产生精确的后验p(x|y)。否则，q将捕捉到“模式寻找”近似真正的后验[27];特别地，如果q(y)是狄拉克函数，在p(x|y)模式下集中。当先验涉及潜变量(即p(x) =∫_hp(x|h)p(h)dh)时，自由能为
在这里插入图片描述
我们特别感兴趣的是，当为DDPM(§2.2)时，对于任何可微集，F对近似匹配的后验q(x)求极小化的一般过程。
在[43]中也研究了相同结构的自由能，其中潜伏空间上的DDPM p(z)被杂交为解码器p(x|z)的双亲，并使用一个附加的推理模型q(z|x)与这两个模型联合训练。另一方面，我们的目标是使用独立训练的组件，这些组件直接在像素空间中操作，例如，在人脸图像上训练的现成的扩散模型p(x)和现成的人脸分类器p(y|x)，而不需要联合训练或调整它们(§3.2)。

2.2.将去噪扩散概率模型作为先验

去噪扩散概率模型(DDPMs)[39,13]通过反转(高斯)噪声过程生成样本x₀。DDPM是深度有向随机网络:
在这里插入图片描述
μ_θ和Σ_θ是具有学习参数的神经网络(通常，如本文中所述，Σ_θ固定为依赖于t的标量对角矩阵)。该模型从单位高斯矩阵的样本开始，根据噪声时间表，在每步增加一个小高斯变换信号的非线性网络μ_θ(x_t,t)对样本进行变换。经过T步，得到采样x=x₀。
一般情况下，使用这样的模型作为x的先验将需要对潜在变量h=(x_T,…,x₁)进行棘手的积分
在这里插入图片描述
然而，训练DDPM的前提是，假定后验q(x_t|x_t−1)是一个简单的扩散过程，根据预定义的调度β_t依次添加高斯噪声:

因此，如果p(x)是在DDPM下x的可能性(5)，那么在(2)的第一个期望中，我们应该使用 $q(h={x_T，…，x_1}|x_0=x) = \prod ^T_{t=1}q(x_T | x_{T−1})$

最低0.47元/天解锁文章