浅析扩散模型与图像生成【应用篇】(十五)——SDG

最新推荐文章于 2024-09-01 20:48:17 发布

深视

最新推荐文章于 2024-09-01 20:48:17 发布

阅读量723

点赞数 3

分类专栏：论文阅读笔记 # 场景生成文章标签：扩散模型图像生成论文阅读

本文链接：https://blog.csdn.net/qq_36104364/article/details/137268351

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章

订阅专栏

场景生成

32 篇文章

订阅专栏

文章介绍了一种新的图像生成方法SDG，它结合文本和图像引导，无需微调扩散模型，能适应多模态输入并生成多样化样本。通过计算分类器的梯度和噪声估计，SDG实现了语义引导下的图像合成，包括文本、内容、结构和风格引导，以及多模态引导的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

15. More Control for Free! Image Synthesis with Semantic Diffusion Guidance

该文提出一种基于语义引导扩散模型的的图像生成算法，SDG，可使用文本或图像作为引导来指引图像的生成，也可以二者同时使用，实现多模态的引导。增加引导信息无需对扩散模型进行微调训练，可以直接作用在生成阶段。相对于现有的文本引导图像生成方法StyleCLIP或图像引导生成方法ILVR，SDG不仅能够适应更多模态的输入，且生成样本也具备更大的多样性。
在这里插入图片描述
在ADM这篇论文中，作者提出一种基于分类器引导的扩散模型，通过额外训练一个分类器 $p_{\phi}(y|x_t,t)$ ，并计算分类器对输入 $x_t$ 的对数梯度 $\nabla_{x_{t}} \log p_{\phi}\left(y \mid x_{t}\right)$ ，将其乘以一个系数加到原本去噪模型估计得到的均值 $\mu$ 上，就可以实现对扩散模型的引导。相当于根据分类器的偏好改变了噪声估计的分布，使其均值向分类器的梯度方向移动。具体实现方式如下 $\begin{array}{l} \mu, \Sigma \leftarrow \mu_{\theta}\left(x_{t}\right), \Sigma_{\theta}\left(x_{t}\right) \\ x_{t-1} \leftarrow \text { sample from } \mathcal{N}\left(\mu+s \Sigma \nabla_{x_{t}} \log p_{\phi}\left(y \mid x_{t}\right), \Sigma\right)\end{array}$ 本文的方法借鉴了ADM的思想，只是将分类器引导拓展到更一般的语义引导，使用一个引导函数 $F_{\phi}(x_t,y,t)$ 取代了计算分类器对数 $\log p_{\phi}\left(y \mid x_{t}\right)$ 的过程，针对不同的引导方式，引导函数有不同的定义。SDG的计算过程如下
在这里插入图片描述

1. 文本引导

作者采用了CLIP中的文本编码器 $E_L$ 和图像编码器 $E_I$ 来分别计算引导文本 $l$ 和生成图像 $x_t$ 对应的嵌入特征。有一点需要注意的是，由于CLIP中的图像编码器 $E_I$ 只能根据输入图像 $x_t$ 进行编码，而没有考虑时刻 $t$ 这一条件，因此作者对 $E_I$ 进行了小小的改动，利用AdaGN层将时刻 $t$ 引入编码过程，得到了时间依赖的图像编码器 $E_I'(x_t,t)$ 。最终文本引导函数定义如下 $F\left(x_{t}, l, t\right)=E_{I}^{\prime}\left(x_{t}, t\right) \cdot E_{L}(l)$

2. 图像引导

针对图像引导的情况，作者给出了多种引导方式，包括：图像内容引导，图像结构引导和图像风格引导。内容引导是指生成与引导图像包含相似内容的图像，如根据一张猫的照片，生成另一张猫的照片。内容引导本身不对生成结果的姿态或者空间布局情况进行限制，因此生成结果会包含更多不同的姿态和空间布局情况。而结构引导则更多的侧重于空间维度上的对齐。风格引导，则是注重图像全局风格上的一致性，如生成具有梵高绘画风格的照片。具体的计算过程分别如下：
图像内容引导 $F\left(x_{t}, x_{t}^{\prime}, t\right)=E_{I}^{\prime}\left(x_{t}, t\right) \cdot E_{I}^{\prime}\left(x_{t}^{\prime}, t\right)$
图像结构引导 $F\left(x_{t}, x_{t}^{\prime}, t\right)=-\sum_{j} \frac{1}{C_{j} H_{j} W_{j}}\left\|E_{I}^{\prime}\left(x_{t}, t\right)_{j}-E_{I}^{\prime}\left(x_{t}^{\prime}, t\right)_{j}\right\|_{2}^{2}$
图像风格引导 $F\left(x_{t}, x_{t}^{\prime}, t\right)=-\sum_{j}\left\|G_{I}^{\prime}\left(x_{t}, t\right)_{j}-G_{I}^{\prime}\left(x_{t}^{\prime}, t\right)_{j}\right\|_{F}^{2}$ 其中 $x'_t$ 是由输入的引导图像 $x_0'$ 经过 $t$ 步扩散过程得到的， $G_I'()_j$ 表示计算 $E_I'$ 编码器输出的第 $j$ 层特征图的格拉姆矩阵。

格拉姆矩阵是表达图像风格常用的计算方式，本质是计算矩阵和自身转置矩阵之间的乘积，具体的介绍参见https://zhuanlan.zhihu.com/p/545090017

3. 多模态引导

正如前文所说，文本引导和图像引导可以同时使用来引导生成过程，实现方式是简单的将不同的引导函数进行加权求和，如下式 $F_{\phi_{0}}\left(x_{t}, y, t\right)=s_{1} F_{\phi_{1}}\left(x_{t}, y, t\right)+s_{2} F_{\phi_{2}}\left(x_{t}, y, t\right)$ 权重系数 $s$ 可以对生成结果进行控制，对于文本引导权重系数通常取 $s = 120$ ，而图像引导权重系数通常取 $s = 100$ 。权重系数越大，生成结果则与引导信息更加一致，但生成结果的多样性也会随之下降。不同引导模式的生成结果如下
在这里插入图片描述