基于分数模型（Score Model）的classifier-guidance及classifier-free guidance的推导

本文链接：https://blog.csdn.net/weixin_43427721/article/details/141173396

基于分数模型（Score Model）的classifier-guidance及classifier-free guidance的推导

基于分数模型的 classifier-guidance 和 classifier-free guidance 方法都是用来指导生成模型生成更符合特定条件的数据点。分数模型是一种能够估计数据分布梯度的模型，在扩散模型中尤为常见。对于 classifier-guidance，我们利用一个预训练的分类器来评估生成样本的概率密度，并据此调整生成过程中的梯度方向，以引导模型生成更符合所期望类别的样本。而 classifier-free guidance 则是在不依赖外部分类器的情况下，通过让模型同时考虑条件输入和无条件输入的情况，动态地调整生成过程中的梯度方向，以达到同样的目的。这两种方法都是通过微调分数模型的梯度来实现对生成结果的控制，从而获得更高质量的生成样本。

前置知识

两种方法都是将非条件生成的模型 $P (x)$ 转变为条件生成模型 $P (x ∣ y)$
例如，在DDPM中，我们的训练目标是利用已知的 $x_t,x_0$ 来预测t-1时刻的噪声，即 $P(x_{t-1}|x_t,x_0)$ ，当我们想做文生图时，就需要加入额外的指令条件 $y$ ，上述的训练目标也就变成了 $P(x_{t-1}|x_t,x_0,y)$
上述的概率表达式可以通过全概率公式的复杂操作推导出，但是过程比较复杂，这里我们直接引入分数的概念，利用分数模型的操作对两种方法进行推导，其中分数Score指的是 $\nabla x\log P(x)$

推导过程

将非条件生成的模型 $P (x)$ 转变为条件生成模型 $P (x ∣ y)$ 后，现在的优化目标变为：

$\begin{align*} \nabla x\log P(x|y) &= \nabla x\log \frac{P(y|x)P(x)}{P(y)} \\ &= \nabla x\log[P(y|x)P(x)]- \nabla x\log P(y)\\ &= \nabla x\log P(y|x) + \nabla x\log P(x) \end{align*}$
其中， $\nabla x\log P(y|x)$ 代表已知图像x的情况下求其在指定标签y下的概率，其实就是分类器； $\nabla x\log P(x)$ 代表无条件生成模型的分数，这就是classifier-guidance的推导及通俗理解，也就是基于分类器的生成。这里还可以在条件生成的过程中利用系数 $w$ 来控制生成样本的质量和多样性：
$w\nabla x\log P(y|x) + \nabla x\log P(x)$
当增大 $w$ 时，生成样本会更符合我们预设的类别，质量目标更容易达成但是多样性会降低；反之，则会质量降低但是多样性更好
上述公式还可以进一步推导出classifier-free guidance
$\begin{align*} w \nabla x\log P(x|y) &= w\nabla x\log P(y|x) + \nabla x\log P(x) \\ &=w \nabla x\log \frac{P(x|y)P(y)}{P(x)}+ \nabla x\log P(x)\\ &= w \nabla x\log [P(x|y)-P(x)]+ \nabla x\log P(x)\\ &=w [\nabla x\log P(x|y)-\nabla x\log P(x)]+\nabla x\log P(x) \end{align*}$
可以看到，公式其实是由带条件的去噪模型 $\nabla x\log P(x|y)$ 和不带条件的去噪模型 $\nabla x\log P(x)$ 组成的，不带条件的模型可以设置为条件为空，所以两个模型可以统一为一个模型，这也是classifier-free guidance方法最终只训练一个共享模型的原因