论文阅读（1）Adding Conditional Control to Text-to-Image Diffusion Models

父子文

已于 2024-01-18 17:45:17 修改

阅读量1.4k

点赞数 30

分类专栏：论文阅读系列文章标签：论文阅读 AI作画 stable diffusion

于 2024-01-18 17:25:22 首次发布

本文链接：https://blog.csdn.net/Study____forever/article/details/135679698

版权

论文阅读系列专栏收录该内容

6 篇文章

订阅专栏

Motivation

文生图模型对于图像空间组成的控制有限；仅通过文本提示难以精确表达复杂的布局、子式、形状和形式
以端到端（e.g. 深度图到图像，姿势到图像等）的方式学习大型文生图扩散模型的条件控制具有挑战性（训练数据不足、训练过度拟合或灾难性遗忘）

Approach

通过锁定模型参数并制作其编码层的可训练副本来保持模型的质量与功能

可训练副本和原始锁定模型通过零卷积层连接，权重初始化为零，以便它们在训练过程中逐渐增长。一次确保在训练开始时不会将有害噪声添加到 large diffusion model 的深层特征中，并保护可训练副本中的大规模预训练主干免受这种噪声的破坏。

零卷积 (zero convolution)：权重和偏置都是用0初始化的1 x 1卷积。

Condition：Canny edges, Hough lines, user scribbles, human key points, segmentation maps, shape normals, depths, and cartoon line drawings

FAQ（参考 Github 官方回答）

问：如果卷积层的权重为零，梯度也为零，网络将不会学到任何东西。为什么『零卷积』有效？
答：这是错误的。让我们考虑一个非常简单的
$y = w x + b$
我们有
$\partial y/\partial w=x, \partial y/\partial x=w, \partial y/\partial b=1$
如果 $w = 0$ 且 $\neq 0$ ，那么
$\partial y/\partial w \neq 0, \partial y/\partial x=0, \partial y/\partial b\neq 0$
这意味着只要 $\neq 0$ ，一次梯度下降迭代就会使 $w$ 非零。然后
$\partial y/\partial x\neq 0$
使得零卷积将逐渐成为具有非零权重的公共卷积层。

Method

ControlNet

在这里插入图片描述

锁定原始网络参数 $\Theta$ ，并同时克隆到具有参数 $\Theta_c$ 的可训练副本。条件向量 $c$ 通过零卷积层与 $x$ 相加，经可训练副本网络后，再通过零卷积层与原始网络的输出相加，得到 $y_c$
$y_c=\mathcal{F}(x;\Theta)+\mathcal{Z}(\mathcal{F}(x+\mathcal{Z}(c;\Theta_{z1});\Theta_c);\Theta_{z2})\\ y_c=y$
因此在训练开始时，有害噪声不会影响到可训练副本中神经网络层的隐藏状态。

由于 $\mathcal{Z}(c;\Theta_{z1})=0$ ，可训练副本还接收输入图像 $x$ ，因此它保留了原先预训练大模型的能力，并允许进一步进行学习。

在这里插入图片描述

使用 ControlNet 创建 12 个 SD Encoder Block 和 1 个 SD Middle Block，输出被接入到 12 个 SD Decoder Block 和 1 个 SD Middle Block。

由于 SD 是在浅空间中进行扩散，因此 ControlNet 使用具有 $4\times4$ 核和 $2\times2$ 步长的四个卷积层组成的微小网络 $\mathcal{E}$ 将输入为 $512\times512$ 的条件图像（边缘、姿势、深度等）转换为 $64\times64$ 的浅空间图像。
$c_f=\mathcal{E}(c_i)$